En una entrada anterior del blog, Rahul habló sobre los códecs de audio y la transcodificación, algunos de los cuales «comprimen» el audio para ahorrar espacio de almacenamiento. Pero, ¿qué hacen exactamente estos códecs de audio en términos de compresión, y qué es lo que determina la calidad de un archivo de audio en primer lugar?
Cuando se trata de procesamiento de audio, hay una gran cantidad de terminología que la mayoría de la gente ha oído antes, pero no entiende realmente. Yo solía ser una de esas personas antes de tener que trabajar en el procesamiento de audio. Por ello, quería hablar de algunos de estos términos, describir lo que son y mostrar lo que significan para la calidad de una grabación o flujo de audio. Para el resto de este post, vamos a suponer que estamos tratando con un solo canal de audio sin comprimir.
(1) Frecuencia de muestreo / frecuencia de muestreo
El primer término que escuchamos a menudo es la tasa de muestreo o la frecuencia de muestreo, que ambos se refieren a la misma cosa. Algunos de los valores con los que te habrás encontrado son 8kHz, 44,1kHz y 48kHz. ¿Qué es exactamente la frecuencia de muestreo de un archivo de audio?
La frecuencia de muestreo se refiere al número de muestras de audio grabadas cada segundo. Se mide en muestras por segundo o Hertz (abreviado como Hz o kHz, siendo un kHz 1000 Hz). Una muestra de audio no es más que un número que representa el valor de la onda acústica medida en un momento determinado. Es muy importante tener en cuenta que estas muestras se toman en instantes temporalmente equidistantes en un segundo. Por ejemplo, si la frecuencia de muestreo es de 8000 Hz, no basta con que haya 8000 muestras muestreadas durante un segundo, sino que deben tomarse exactamente con un intervalo de 1/8000 de segundo. El número 1/8000 en este caso se llamaría el intervalo de muestreo (medido en segundos), y la tasa de muestreo es simplemente el inverso multiplicativo de eso.
La tasa de muestreo es análoga a la medición de la tasa de fotogramas o FPS (fotogramas por segundo) para los vídeos. Un vídeo no es más que una serie de imágenes, normalmente denominadas en este contexto «fotogramas», que se muestran una detrás de otra muy rápidamente para dar la ilusión (al menos a nosotros, los humanos) de movimiento o desplazamiento continuo no interrumpido.
Aunque la tasa de muestreo de audio y la tasa de fotogramas de vídeo son similares, el mínimo numérico habitual para garantizar la usabilidad en cada una de ellas es muy diferente. En el caso del vídeo, se requiere un mínimo de 24 fotogramas por segundo para garantizar que el movimiento se represente con precisión; si es inferior, el movimiento puede aparecer entrecortado y no se puede mantener la ilusión de movimiento continuo y sin interrupciones. Esto es especialmente cierto cuanto más movimiento se produzca entre fotogramas. Además, un vídeo con 1 o 2 fotogramas por segundo podría tener eventos de «fracciones de segundo» que se perderían entre los fotogramas.
Para el audio, el número mínimo de muestras por segundo para representar inequívocamente el habla inglesa es de 8000 Hz. Si se utiliza un número inferior, el habla podría no ser comprensible por varias razones, una de las cuales es que no se pueden distinguir expresiones similares entre sí. Las frecuencias de muestreo más bajas confunden los fonemas, o sonidos de una lengua, que tienen una energía de alta frecuencia significativa; por ejemplo, con 5000 Hz, es difícil distinguir la /s/ de la /sh/ o de la /f/.
Ya que mencionamos los fotogramas de vídeo, otro término que vale la pena elaborar es el de fotogramas de audio. Aunque las muestras de audio y los fotogramas de audio se miden en hercios, no son lo mismo. Un cuadro de audio es el grupo de muestras de audio para una instancia de tiempo que provienen de uno o más canales de audio.
Los valores más comunes para la tasa de muestreo son los ya mencionados 8kHz (más común para las comunicaciones telefónicas), 44.1kHz (más común para los CDs de música), y 48kHz (más común para las pistas de audio en las películas). Las frecuencias de muestreo más bajas implican menos muestras por segundo, lo que a su vez significa menos datos de audio, ya que hay un menor número de puntos de muestreo para representar el audio. La frecuencia de muestreo se elige para una determinada aplicación en función de los artefactos acústicos que deban capturarse. Algunos artefactos acústicos, como las expresiones del habla, requieren una frecuencia de muestreo menor que un artefacto acústico como una melodía en un CD de música. Es importante tener en cuenta que las frecuencias de muestreo más altas requieren más espacio de almacenamiento y potencia de procesamiento para manejarlas, aunque esto podría no ser un problema tan grande ahora como lo era en los viejos tiempos cuando el almacenamiento digital y la potencia de procesamiento eran consideraciones primordiales.
(2) Profundidad de la muestra / Precisión de la muestra / Tamaño de la muestra
Además de la frecuencia de muestreo, que es el número de puntos de datos de audio que tenemos, también está la profundidad de la muestra. Medida en bits por muestra, la profundidad de la muestra, (también conocida como precisión de la muestra o tamaño de la muestra), es la segunda propiedad importante de un archivo o flujo de audio, y representa el nivel de detalle, o «calidad» que tiene cada muestra. Como hemos mencionado anteriormente, cada muestra de audio es sólo un número, y aunque tener muchos números es útil para representar el audio, también es necesario que el rango o la «calidad» de cada número individual sea lo suficientemente grande como para representar cada muestra o punto de datos con precisión.
¿Qué significa «calidad»? Para una muestra de audio, significa simplemente que la muestra de audio puede representar un rango mayor de amplitudes. Una profundidad de muestra de 8 bits significa que tenemos 2^8 = 256 amplitudes distintas que puede representar cada muestra de audio, y una profundidad de muestra de 16 bits significa que tenemos 2^16 = 65.536 amplitudes distintas que puede representar una muestra de audio, y así sucesivamente para profundidades de muestra mayores. Las profundidades de muestreo más comunes para el audio telefónico son 16 bits y 32 bits. Cuantas más amplitudes distintas se tengan en una grabación digital, más cerca sonará la grabación digital del evento acústico original.
De nuevo, esto es análogo a los números de 8 o 16 bits que podemos oír en relación con la calidad de la imagen. En el caso de las imágenes o los vídeos, cada píxel de una imagen o un fotograma de vídeo también tiene un número de bits para representar el color. Una mayor profundidad de bits en un píxel da como resultado un píxel más preciso en cuanto al color, ya que el píxel tiene más bits para «describir» el color que se va a representar en una pantalla, y el píxel o la imagen en general tendría un aspecto más realista de cómo se vería en la vida real. Más técnicamente, la profundidad de bits de un píxel indica cuántos colores distintos se pueden representar en el píxel. Si se permite que cada R, G y B se represente con un número de 8 bits, entonces cada píxel se representa con 3 x 8 = 24 bits. Esto significa que hay 2^24 ~ 17 millones de colores diferentes que pueden ser representados por ese píxel.
(3) Tasa de bits
Uniendo la tasa de muestreo y la profundidad de la muestra está la tasa de bits, que es simplemente el producto de ambas. Como la frecuencia de muestreo se mide en muestras por segundo y la profundidad de la muestra se mide en bits por muestra, se mide en (muestras por segundo) x (bits por muestra) = bits por segundo, abreviado como bps o kbps. Vale la pena señalar que debido a que la profundidad de la muestra y la tasa de bits están relacionadas, con frecuencia, aunque erróneamente, se utilizan indistintamente.
La tasa de bits en el audio varía según la aplicación. Las aplicaciones que requieren una alta calidad de audio, como la música, suelen tener una tasa de bits más alta que produce un audio de mayor calidad o más «nítido». El audio de telefonía, incluido el de los centros de llamadas, no necesita una alta tasa de bits, por lo que la tasa de bits de una llamada telefónica ordinaria suele ser mucho menor que la de un CD de música. Tanto para la tasa de muestreo como para la tasa de bits, los valores más bajos pueden sonar (literalmente) peor, pero de nuevo, dependiendo de la aplicación, los valores más bajos ahorran espacio de almacenamiento y/o potencia de procesamiento.
En definitiva, ¿qué significa realmente la compresión cuando se trata de audio? Los formatos de audio comprimidos, como AAC o MP3, tienen una tasa de bits que es un número menor que el producto real de la tasa de muestreo y la profundidad de la muestra. Los formatos consiguen esto eliminando «quirúrgicamente» información del flujo de bits por motivos perceptivos, lo que significa que -en contextos dinámicos- no se almacenan aquellas frecuencias o amplitudes que el oído humano no escucha por razones biológicas, lo que conduce a un tamaño de archivo más pequeño en general.
Créditos a Kornel Laskowski, científico jefe de Voci, por revisar los detalles técnicos de este artículo.