Compresión de datos de audio

La compresión de datos de audio (a menudo denominada indistintamente como compresión de audio para abreviar) es la reducción de datos ( algoritmo " con pérdida " ) o la compresión de datos ( algoritmo " sin pérdida ").

La compresión de datos de audio describe tipos especializados de compresión de datos para reducir eficazmente el tamaño de los datos de audio digital . Al igual que con otros tipos especializados de compresión de datos (especialmente compresión de video e imágenes ), las propiedades específicas de las señales correspondientes se utilizan de diversas formas para lograr un efecto de reducción.

Este tipo de compresión no debe confundirse con el método de estrechamiento dinámico (también llamado compresión dinámica ), que normalmente se usa para aumentar los pasajes más silenciosos o más bajos en una señal de audio y no guarda ningún dato (ver también Compressor ) .

Compresión de datos de audio sin pérdida

La compresión de datos de audio sin pérdidas o la compresión de audio sin pérdidas más corta es una compresión sin pérdidas de datos de audio, por lo que la generación de datos empaquetados permite una reconstrucción bitidentische de la señal de salida.

Los códecs de audio sin pérdidas se diferencian de los métodos de compresión de datos genéricos en que están especialmente adaptados a la estructura de datos típica de los datos de audio y, por lo tanto, los comprimen mejor que los métodos genéricos como los algoritmos basados ​​en Lempel - Ziv Deflate / ZIP y RAR . La tasa de compresión que se puede lograr con los métodos actuales suele estar entre el 25 y el 70 por ciento para el contenido típico de los CD de audio (música, 16 bits / 44100 Hz).

usar

Los procesos se utilizan en estudios de grabación, en soportes de sonido más nuevos como SACD y DVD-Audio, y cada vez más también en archivos de música privados para oyentes de música conscientes de la calidad que desean evitar pérdidas generacionales , por ejemplo . Además, muchos métodos de compresión de datos del sector de audio también son de interés para otras señales como datos biológicos, curvas médicas o datos sísmicos.

Problema

La mayoría de las grabaciones de sonido son sonidos grabados del mundo real; estos datos son difíciles de comprimir. Similar a cómo las fotos no se pueden comprimir tan bien como las imágenes generadas por computadora, aunque las secuencias de sonido generadas por computadora también pueden contener formas de onda muy complicadas que son difíciles de reducir con muchos algoritmos de compresión.

Además, los valores de las muestras de audio cambian muy rápidamente y rara vez hay secuencias de los mismos bytes, por lo que los algoritmos generales de compresión de datos no funcionan bien.

Encuentra representaciones más económicas

La naturaleza de la representación PCM de las ondas sonoras es generalmente difícil de simplificar sin una conversión inevitablemente con pérdida en secuencias de frecuencia como las que tienen lugar en el oído humano.

En el caso de los datos de audio, puede

  • Similitudes entre los canales (estéreo) y
  • Las dependencias entre muestras sucesivas (a través de- correlación ) y después
  • Entropía de las muestras de la señal residual

ser explotado.

tecnología

Acoplamiento de canales

Mediante el acoplamiento de canales, se pueden aprovechar las dependencias entre canales. Al describir un canal a través de la diferencia con un canal central nuevo o existente, se puede evitar la descripción repetida de contenidos comunes.

Las señales de diferencia pueden almacenarse sin pérdida, cuantificarse y codificarse en consecuencia con pérdidas o, por ejemplo, también almacenarse abstraídas para formar descripciones paramétricas .

pronóstico

Para aprovechar las dependencias entre valores de muestra sucesivos, se lleva a cabo una descorrelación intentando predecir el curso de la curva de sonido. Como resultado, se puede calcular una señal residual / diferencia que, si la predicción es buena, es correspondientemente débil (es decir, tiene pocos dígitos significativos) y, además , se puede comprimir usando un método de codificación de entropía . Para este propósito, en la mayoría de los casos, los valores de muestra se extrapolan de otros utilizando métodos de predicción sofisticados y adaptativos (adaptativos).

Codificación de entropía

La codificación de entropía de la señal residual descorrelacionada utiliza diferentes probabilidades de ocurrencia y similitudes para sus valores de muestra. Los códigos de arroz , por ejemplo, se utilizan a menudo para esto.

Un método es simétrico si, para la decodificación, la señal pasa por los mismos pasos a la inversa que para la codificación y el esfuerzo computacional para la codificación depende del esfuerzo computacional requerido para la decodificación.

Características procedimentales

En el caso de los códecs sin pérdidas, por definición, deben excluirse las diferencias en la calidad de la señal de audio; las diferencias de procedimiento radican en las siguientes características:

  • índice de compresión
  • reproducción directa de los datos comprimidos
  • Saltar a cualquier posición en una transmisión de audio
  • Requisitos de recursos para compresión y descompresión
  • Soporte de software y hardware
  • Flexibilidad en el manejo de metadatos
  • Tipo de licencia
  • Disponibilidad multiplataforma
  • Soporte de señales multicanal
  • Soporte de diferentes resoluciones : temporalmente ( frecuencia de muestreo ) o la profundidad del sonido ( profundidad de muestreo )
  • posiblemente modos adicionales con pérdida o incluso híbridos (archivo con pérdida + corrección)
  • Soporte de transmisión
  • Mecanismos de tolerancia / corrección de fallas
  • Sumas de comprobación integradas para comprobar rápidamente si un archivo está completo
  • Opciones de codificación simétricas y asimétricas (independencia / dependencia de la velocidad de decodificación de la velocidad de codificación)
  • Admite la creación de archivos autoextraíbles
  • Compatibilidad con el estándar de ganancia de repetición
  • Soporte de hoja de referencia integrado
  • posible almacenamiento de datos de encabezado del formato original

Formatos de audio sin pérdida

Los formatos de audio sin pérdida son:

Compresión de datos de audio con pérdida

Como compresión de datos de audio con pérdida , menos precisa, compresión de audio con menos pérdida o en un contexto apropiado Compresión con pérdida o "lossy" en inglés (lossy), se refiere a métodos que rechazan la reducción de datos y están orientados aproximadamente a ahorrar componentes de señal menos relevantes, generalmente con mala precisión o irremediablemente.

Con los métodos simples, tales como μ-ley y de ley A , sólo los puntos de muestreo individuales de la secuencia de datos PCM se cuantifican usando una curva característica logarítmica en función del nivel. Métodos como el ADPCM ya utilizan las correlaciones de puntos de muestreo sucesivos. Los métodos modernos se basan principalmente en transformaciones de frecuencia en conexión con modelos psicoacústicos que simulan las propiedades del oído humano (interno) y reducen la precisión de visualización de los componentes de la señal enmascarada según sus deficiencias. Para procesos especializados, también se utilizan modelos que simulan el generador de sonido y así permiten la síntesis de sonido en el receptor o en el decodificador, con lo que luego se puede describir gran parte de la señal con parámetros para controlar el sintetizador.

Compresión con pérdida

Psicoacústica

La mayoría de los métodos modernos no intentan reducir el error matemático, sino mejorar la percepción humana subjetiva de las secuencias de tonos. Dado que el oído humano no puede analizar toda la información de un tono entrante, es posible cambiar un archivo de sonido de manera significativa sin afectar la percepción subjetiva del oyente. Por ejemplo, un códec puede almacenar algunos de los componentes de sonido en rangos de frecuencias muy altas y muy bajas que están al borde del rango audible con menos precisión o, en casos excepcionales, incluso descartarlos por completo. Los sonidos silenciosos también se pueden reproducir con menos precisión porque están cubiertos ("enmascarados") por sonidos fuertes de frecuencias vecinas. Otro tipo de superposición es que un sonido suave no es reconocible si viene inmediatamente antes o después de un sonido fuerte (enmascaramiento temporal). Tal modelo de la conexión oído-cerebro, que es responsable de estos efectos, a menudo se denomina modelo psicoacústico (también: " Modelo psicoacústico ", " Psico-modelo " o " Psy-modelo "). Aquí se utilizan propiedades del oído humano , como la formación de grupos de frecuencias , los límites del rango auditivo, los efectos de enmascaramiento y el procesamiento de señales del oído interno .

La mayoría de los algoritmos de compresión con pérdida que funcionan de acuerdo con un modelo psicoacústico se basan en transformaciones simples, como la transformación de coseno discreto modificado (MDCT), que convierte la forma de onda registrada en sus secuencias de frecuencia y, por lo tanto, encuentra representaciones aproximadas del material fuente que pueden Ser eficientemente cuantificado, desde la representación de la percepción más cercana a la humana. Algunos algoritmos modernos utilizan wavelets , pero aún no se sabe con certeza si dichos algoritmos funcionan mejor que los basados ​​en MDCT.

calidad

Los métodos de compresión con pérdida solo permiten la reconstrucción de una señal aproximadamente similar debido a su principio. La transparencia se puede lograr con muchos procesos, es decir, se puede lograr un grado de similitud para la percepción auditiva (del ser humano) en el que no se percibe ninguna diferencia con el original. Los artefactos de compresión introducidos en la señal son audibles por debajo del umbral de transparencia. En el extremo superior de la escala se encuentra la transparencia, con la que no se nota ninguna diferencia con el original. Se puede determinar en pruebas de audición a ciegas. En la mayoría de los casos, se muestra aproximadamente un valor umbral en la cantidad de la tasa de bits, a partir del cual se hace posible la transparencia, con un riesgo más o menos alto de situaciones excepcionales que no se pueden (todavía) codificar de forma transparente. Este riesgo generalmente disminuye si la tasa de bits aumenta más y depende, entre otras cosas, de la arquitectura del método respectivo. Aquí, los métodos más modernos a menudo pueden ofrecer mejores mecanismos para dominar las áreas problemáticas. Por debajo del umbral de transparencia del proceso de compresión, los artefactos de compresión aún pueden estar enmascarados hasta cierto punto por las perturbaciones que los dispositivos inferiores introducen en la reproducción. En el caso de artefactos de compresión perceptibles, una comparación objetiva de diferentes métodos es mucho más difícil, ya que a menudo depende en gran medida de las preferencias subjetivas del oyente. El criterio aquí puede ser, por ejemplo, la naturalidad de la imagen sonora; por ejemplo, si los artefactos se parecen a perturbaciones que ocurren naturalmente, como el ruido. En el extremo inferior de la escala de calidad, los códecs de voz normalmente consideran el umbral de inteligibilidad por debajo del cual el contenido de voz ya no se puede reproducir de una manera comprensible.

Artefactos de compresión

En el caso de los métodos de compresión basados ​​en transformaciones de frecuencia, los artefactos típicos incluyen un espectro de sonido más pobre y notablemente adelgazado, lo que conduce, por ejemplo, a artefactos de chirrido ("artefacto de pajarito") o un sonido característico de burbujeo o gorgoteo sordo y ecos principales (inglés "artefactos de eco previo") para eventos de sonido nítidos y de alta energía ( transitorios ).

Pérdida de generación

Dado que las partes con pérdida de un proceso de compresión generalmente generan (más) pérdidas con cada ejecución, existe la llamada pérdida de generación si, por ejemplo, un archivo se comprime durante la transcodificación , luego se descomprime y luego se vuelve a comprimir. En la práctica, esto ocurre principalmente cuando se graba un CD de audio a partir de archivos de audio con pérdida (los CD de audio no están comprimidos) y el material se lee y comprime posteriormente. Esto hace que los archivos con pérdida no sean adecuados para aplicaciones en áreas de procesamiento de sonido profesional ( "la reducción de datos es destrucción de audio" ). Sin embargo, estos archivos son muy populares entre los usuarios finales, ya que un megabyte, dependiendo de la complejidad del material de sonido, es suficiente para aproximadamente un minuto de música de calidad aceptable, lo que corresponde a una tasa de compresión de aproximadamente 1:11.

Las excepciones son, por ejemplo, los prefiltros con pérdidas para la combinación con procesos sin pérdidas como lossyWAV, que procesan los datos PCM para lograr posteriormente una mayor compresión con un (cierto) proceso de compresión sin pérdidas. Por supuesto, los datos generados por el prefiltro se pueden comprimir y descomprimir tantas veces como se desee utilizando el método de compresión sin pérdidas, al menos siempre que no se modifiquen más, sin sufrir pérdidas adicionales.

Evaluación de la calidad

Las siguientes evaluaciones se basan en varias pruebas de audición de hydrogenaudio.org. Este foro representa una plataforma que es visitada por usuarios interesados ​​y experimentados, así como por los desarrolladores de varios métodos de compresión de audio como MP3 ( codificador LAME ), Vorbis o Nero-AAC. El alto número de personas de prueba participantes da como resultado declaraciones de calidad aseguradas estadísticamente.

Desde el desarrollo de MP3 (alrededor de 1987) pasando por el uso inicial del códec (alrededor de 1997-2000) hasta el formato de audio más utilizado en el mundo (desde alrededor de 2003), la calidad de salida ha mejorado constantemente. También se desarrollaron otros formatos como Vorbis, WMA o AAC para representar una alternativa al MP3 o para reemplazarlo a largo plazo. Estos formatos también se han desarrollado continuamente.

Un archivo MP3 con una velocidad de bits de ~ 128 kbit / s sonaba muy modesto en 1997. La prometida calidad similar a un CD aún no se había logrado en ese momento. En 2005, como lo confirmaron las pruebas de audición en ese momento, el codificador LAME para el mismo formato a ~ 128 kbit / s ya ofrecía una calidad transparente para la clara mayoría de oyentes, es decir, no distinguible de la grabación original.

Según una prueba de audición de agosto de 2007, se puede lograr una calidad comparable con el formato AAC a 96 kbit / s.

Las pruebas de escucha de los años 2000 con tasas de bits de 48 y 64 kbit / s muestran que a estas bajas tasas de bits se puede lograr una calidad adecuada para su uso en dispositivos portátiles o para radio web.

Con un codificador de buena calidad y el formato adecuado, ya se podría lograr una calidad de 96 a 128 kbit / s que la gran mayoría de usuarios no pueden distinguir del CD.

Formatos de audio con pérdida

Un análisis espectral de la canción sin comprimir The Power of Thy Sword muestra un ancho de banda completo de hasta aproximadamente 21 kHz, mientras que los espectros más bajos de los archivos respectivos muestran un ancho de banda significativamente menor, pero esto no significa que la calidad del audio se haya deteriorado significativamente. (Espectros de frecuencia de MiniDisc de grabación analógica)

En los ejemplos, hasta donde se conoce, también se dan las tasas de bits a las que la mayoría de las personas ya no pueden distinguir un archivo comprimido del original, es decir , suena transparente , con escucha concentrada con buenos accesorios y un códec sofisticado de la compresión respectiva. esquema; dependiendo del tipo de música. Debe tenerse en cuenta, sin embargo, que la transparencia no es percibida por todos con la misma tasa de bits. La calidad de los convertidores D / A, amplificadores y cajas juega un papel importante aquí. Si bien la compresión con pérdida suele ser muy claramente audible en los equipos de estudio, incluso para los legos, no se puede diferenciar del original en dispositivos de reproducción inferiores, incluso para los profesionales. Por tanto, la información es un valor de referencia para el oyente medio con un equipo medio. La tasa de bits de los CD es 1411,2 kbit / s (kilobits por segundo).

Para comparar varios códecs de audio, consulte los enlaces web .

  • AC-3 , también llamado Dolby Digital o similar
  • AAC (MPEG-2, MPEG-4 ): 96-320 kbit / s
  • ATRAC ( MiniDisc ): 292 kbit / s
  • ATRAC3 (MiniDisc en modo MDLP): 66-132 kbit / s
  • ATRAC3plus (para Hi-MD y otros dispositivos de audio portátiles de Sony): 48–352 kbit / s
  • DTS
  • MP2 : Códec de audio MPEG-1 Layer 2 ( MPEG-1 , MPEG-2 ): 280-400 kbit / s
  • MP3 : Códec de audio MPEG-1 Layer 3 (MPEG-1, MPEG-2, LAME ): 180-250 kbit / s
  • mp3PRO
  • Musepack : 160-200 kbit / s (código abierto)
  • Ogg Vorbis : 160-220 kbit / s (código abierto)
  • opus
  • WMA
  • LPEC
  • TwinVQ

Ver también

literatura

  • Roland Enders: el manual de grabación para el hogar . 3. Edición. Carstensen, Múnich 2003, ISBN 3-910098-25-8 .
  • Thomas Görne: Ingeniería de sonido . 1ª edición. Carl Hanser, Leipzig 2006, ISBN 3-446-40198-9 .
  • R. Beckmann: Manual de tecnología PA, práctica de componentes básicos . 2ª Edición. Elektor, Aquisgrán 1990, ISBN 3-921608-66-X .
  • A. Lerch: reducción de la tasa de bits . En: Stefan Weinzierl (Ed.): Manual de tecnología de audio . 1ª edición. Springer, Berlín 2008, ISBN 978-3-540-34300-4 , págs. 849-884 .

enlaces web

Commons : compresión de datos de audio  : colección de imágenes, videos y archivos de audio

Evidencia individual

  1. http://wiki.hydrogenaudio.org/?title=lossyWAV
  2. Results of Public, Multiformat Listening Test @ 128 kbps (diciembre de 2005) ( Memento del 5 de junio de 2008 en Internet Archive )
  3. a b Results of Public, Multiformat Listening Test @ 48 kbps (noviembre de 2006) ( Memento del 5 de junio de 2008 en Internet Archive ), en www.listening-tests.info, noviembre de 2006 (inglés).
  4. Results of Public, Multiformat Listening Test @ 64 kbps (julio de 2007) ( Memento del 5 de junio de 2008 en Internet Archive )