Em um post de blog anterior, Rahul falou sobre codecs de áudio e transcodificação, alguns dos quais “comprimem” áudio para economizar espaço de armazenamento. Mas o que exatamente esses codecs de áudio fazem em termos de compressão, e o que determina a qualidade de um arquivo de áudio em primeiro lugar?
Quando se trata de processamento de áudio, há muita terminologia que a maioria das pessoas já ouviram antes, mas não entendem realmente. Eu costumava ser uma dessas pessoas antes de ter que trabalhar no processamento de áudio. Para isso, eu queria falar sobre alguns desses termos, descrever o que eles são e mostrar o que eles significam para a qualidade de uma gravação de áudio ou stream. Para o resto deste post, vamos assumir que estamos lidando com apenas um canal de áudio não comprimido.
(1) Sampling Rate / Freqüência de Amostragem
O primeiro termo que ouvimos com freqüência é a taxa de amostragem ou freqüência de amostragem, que ambos se referem à mesma coisa. Alguns dos valores que você pode ter encontrado são 8kHz, 44,1kHz, e 48kHz. Qual é exactamente a taxa de amostragem de um ficheiro de áudio?
A taxa de amostragem refere-se ao número de amostras de áudio gravadas a cada segundo. É medida em amostras por segundo ou Hertz (abreviado como Hz ou kHz, com um kHz sendo 1000 Hz). Uma amostra de áudio é apenas um número que representa o valor da onda acústica medida em um ponto específico no tempo. É muito importante notar que estas amostras são tiradas em instantes temporalmente equidistantes em um segundo. Por exemplo, se a taxa de amostragem for 8000 Hz, não é suficiente que haja 8000 amostras colhidas durante um segundo; elas devem ser colhidas a exatamente 1/8000 de segundo de intervalo. O número 1/8000 neste caso seria chamado de intervalo de amostragem (medido em segundos), e a taxa de amostragem é simplesmente o inverso multiplicativo disso.
A taxa de amostragem é análoga à medida da taxa de frames ou FPS (frames per second) para vídeos. Um vídeo é simplesmente uma série de imagens, normalmente chamadas neste contexto de “frames”, exibidas de volta para trás muito rapidamente para dar a ilusão (pelo menos para nós humanos) de movimento ou movimento contínuo sem interrupções.
Embora a taxa de amostragem de áudio e a taxa de frames do vídeo sejam semelhantes, o mínimo numérico usual para garantir a usabilidade em cada um deles é muito diferente. Para vídeo, um mínimo de 24 quadros por segundo é necessário para garantir que o movimento seja representado com precisão; menos do que isso, e o movimento pode parecer agitado, e a ilusão de movimento contínuo não interrompido não pode ser mantida. Isto é especialmente verdade quanto mais movimento estiver ocorrendo entre quadros. Além disso, um vídeo com 1 ou 2 frames por segundo pode ter eventos de “fracção de segundo” que são garantidos de não ocorrer entre os frames.
Para áudio, o número mínimo de amostras por segundo para representar sem ambiguidade a fala em inglês é de 8000 Hz. Usar menos do que isso resultaria em fala que poderia não ser compreensível devido a uma variedade de razões, uma das quais é como afirmações semelhantes não serão distinguíveis umas das outras. Taxas de amostragem mais baixas confundem fonemas, ou sons em uma língua, que têm energia de alta frequência significativa; por exemplo, com 5000 Hz, é difícil distinguir /s/ de /sh/ ou /f/.
Desde que mencionamos frames de vídeo, outro termo que vale a pena desenvolver é o de frames de áudio. Embora amostras de áudio e frames de áudio sejam ambos medidos em Hertz, eles não são a mesma coisa. Um frame de áudio é o grupo de amostras de áudio para um exemplo de tempo que vem de um ou mais canais de áudio.
Os valores mais comuns para a taxa de amostragem são os já mencionados 8kHz (mais comuns para comunicações telefônicas), 44.1kHz (mais comuns para CDs de música), e 48kHz (mais comuns para faixas de áudio em filmes). Taxas de amostragem mais baixas significam menos amostras por segundo, o que por sua vez significa menos dados de áudio, já que há um número menor de pontos de amostragem para representar o áudio. A taxa de amostragem é escolhida para uma determinada aplicação, dependendo de quais artefatos acústicos precisam ser capturados. Alguns artefatos acústicos, como as declarações de voz, requerem uma taxa de amostragem menor do que um artefato acústico, como uma melodia de música em um CD de música. É importante notar que taxas de amostragem mais altas requerem mais espaço de armazenamento e poder de processamento para lidar, embora isso possa não ser um problema tão grande agora como costumava ser nos velhos tempos, quando o armazenamento digital e o poder de processamento eram as principais considerações.
(2) Profundidade da Amostra / Precisão da Amostra / Tamanho da Amostra
Além da taxa de amostragem, que é quantos pontos de dados de áudio nós temos, há também a profundidade da amostra. Medida em bits por amostra, a profundidade da amostra, (também conhecida como precisão da amostra ou tamanho da amostra), é a segunda propriedade importante de um arquivo de áudio ou stream, e representa o nível de detalhe, ou “qualidade” que cada amostra tem. Como mencionamos acima, cada amostra de áudio é apenas um número, e embora ter muitos números seja útil para representar o áudio, você também precisa que o intervalo ou “qualidade” de cada número individual seja grande o suficiente para representar cada amostra ou ponto de dados com precisão.
O que significa “qualidade”? Para uma amostra de áudio, isso significa simplesmente que a amostra de áudio pode representar um intervalo de amplitudes mais elevado. Uma profundidade de amostragem de 8 bits significa que temos 2^8 = 256 amplitudes distintas que cada amostra de áudio pode representar, e uma profundidade de amostragem de 16 bits significa que temos 2^16 = 65.536 amplitudes distintas que uma amostra de áudio pode representar, e assim por diante para profundidades de amostragem mais altas. As profundidades de amostragem mais comuns para áudio de telefonia são 16 bits e 32 bits. Quanto mais distintas amplitudes se tem numa gravação digital, mais próxima a gravação digital soa do evento acústico original.
Again, isto é análogo aos números de 8bit ou 16bit que podemos ouvir sobre a qualidade da imagem. Para imagens ou vídeos, cada pixel de uma imagem ou de um quadro de vídeo também tem um número de bits para representar cores. Uma maior profundidade de bits em um pixel produz um pixel que é mais preciso em termos de cor, já que o pixel tem mais bits para “descrever” a cor a ser representada em uma tela, e o pixel ou a imagem em geral pareceria mais realista para a forma como se veria na vida real. Mais tecnicamente, a profundidade de bits de um pixel indica quantas cores distintas podem ser representadas no pixel. Se você permitir que cada um de R, G e B seja representado por um número de 8 bits, então cada pixel é representado por 3 x 8 = 24 bits. Isto significa que existem 2^24 ~ 17 milhões de cores diferentes que podem ser representadas por aquele pixel.
(3) Bit Rate
Aplicar a taxa de amostragem e a profundidade da amostra é a taxa de bits, que é simplesmente o produto de ambos. Como a taxa de amostragem é medida em amostras por segundo e a profundidade da amostra é medida em bits por amostra, ela é, portanto, medida em (amostras por segundo) x (bits por amostra) = bits por segundo, abreviado como bps ou kbps. Vale notar que como a profundidade de amostra e a taxa de bits estão relacionadas, elas frequentemente, mas erroneamente, são usadas de forma intercambiável.
A taxa de bits em áudio varia de acordo com a aplicação. Aplicativos que requerem alta qualidade de áudio, como música, geralmente têm uma taxa de bits mais alta, produzindo uma qualidade mais alta, ou áudio “mais nítido”. O áudio de telefonia, incluindo o de call centers, não precisa de uma taxa de bits alta, e por isso a taxa de bits para uma chamada telefônica comum é geralmente muito mais baixa do que a de um CD de música. Tanto para a taxa de amostragem como para a taxa de bits, valores mais baixos podem (literalmente) soar pior, mas novamente, dependendo da aplicação, valores mais baixos economizam espaço de armazenamento e/ou potência de processamento.
Em suma, o que realmente significa compressão, então, quando se trata de áudio? Os formatos de áudio comprimido, tais como AAC ou MP3 têm uma taxa de bits que é um número um pouco menor do que o verdadeiro produto da taxa de amostragem e da profundidade da amostra. Os formatos conseguem isso tendo a informação “cirurgicamente” removida do fluxo de bits por razões perceptuais, o que significa que — em contextos dinâmicos — aquelas frequências ou amplitudes que não são ouvidas pelo ouvido humano por razões biológicas não são armazenadas, levando a um tamanho de arquivo globalmente menor.
Créditos a Kornel Laskowski, Cientista Chefe da Voci, por rever os detalhes técnicos deste artigo.