In un precedente post sul blog, Rahul ha parlato dei codec audio e della transcodifica, alcuni dei quali “comprimono” l’audio per risparmiare spazio di archiviazione. Ma cosa fanno esattamente questi codec audio in termini di compressione, e cosa determina la qualità di un file audio in primo luogo?
Quando si tratta di elaborazione audio, c’è un sacco di terminologia che la maggior parte delle persone ha sentito prima ma non capisce veramente. Io ero una di quelle persone prima di dover lavorare all’elaborazione audio. A tal fine, volevo parlare di alcuni di questi termini, descrivere cosa sono, e mostrare cosa significano per la qualità di una registrazione o di un flusso audio. Per il resto di questo post, assumeremo che abbiamo a che fare con un solo canale di audio non compresso.
(1) Sampling Rate / Sampling Frequency
Il primo termine di cui sentiamo spesso parlare è il sampling rate o sampling frequency, che si riferiscono entrambi alla stessa cosa. Alcuni dei valori che potresti aver incontrato sono 8kHz, 44.1kHz e 48kHz. Cos’è esattamente la frequenza di campionamento di un file audio?
La frequenza di campionamento si riferisce al numero di campioni di audio registrati ogni secondo. Si misura in campioni al secondo o Hertz (abbreviato in Hz o kHz, dove un kHz è 1000 Hz). Un campione audio è solo un numero che rappresenta il valore dell’onda acustica misurato in un momento specifico. È molto importante notare che questi campioni sono presi in istanti temporalmente equidistanti in un secondo. Per esempio, se la frequenza di campionamento è di 8000 Hz, non è sufficiente che ci siano 8000 campioni campionati durante un secondo; devono essere presi esattamente a 1/8000 di secondo di distanza. Il numero 1/8000 in questo caso si chiama intervallo di campionamento (misurato in secondi), e la frequenza di campionamento è semplicemente l’inverso moltiplicativo di questo.
La frequenza di campionamento è analoga alla misura del frame rate o FPS (frames per second) per i video. Un video è semplicemente una serie di immagini, di solito chiamate in questo contesto “fotogrammi”, visualizzate una dietro l’altra molto velocemente per dare l’illusione (almeno a noi umani) di un movimento continuo e non interrotto.
Mentre la frequenza di campionamento audio e la frequenza dei fotogrammi video sono simili, il minimo numerico usuale per garantire l’usabilità di ciascuno è molto diverso. Per il video, un minimo di 24 fotogrammi al secondo è richiesto per garantire che il movimento sia rappresentato accuratamente; meno di questo, e il movimento potrebbe apparire frammentato, e l’illusione di un movimento continuo non interrotto non può essere mantenuta. Questo è particolarmente vero quando c’è più movimento tra un fotogramma e l’altro. Inoltre, un video con 1 o 2 fotogrammi al secondo potrebbe avere eventi “split-second” che sono garantiti per essere persi tra i fotogrammi.
Per l’audio, il numero minimo di campioni al secondo per rappresentare senza ambiguità il discorso inglese è 8000 Hz. Usando meno di questo, il risultato sarebbe un discorso che potrebbe non essere comprensibile per una serie di ragioni, una delle quali è come enunciati simili non saranno distinguibili l’uno dall’altro. Frequenze di campionamento più basse confondono i fonemi, o suoni in una lingua, che hanno una significativa energia ad alta frequenza; per esempio, con 5000 Hz, è difficile distinguere /s/ da /sh/ o /f/.
Da quando abbiamo menzionato i fotogrammi video, un altro termine che vale la pena approfondire è quello di fotogrammi audio. Sebbene i campioni audio e i frame audio siano entrambi misurati in Hertz, non sono la stessa cosa. Un fotogramma audio è il gruppo di campioni audio per un’istanza di tempo che provengono da uno o più canali audio.
I valori più comuni per la frequenza di campionamento sono i già citati 8kHz (più comuni per le comunicazioni telefoniche), 44.1kHz (più comuni per i CD musicali), e 48kHz (più comuni per le tracce audio nei film). Basse frequenze di campionamento significano meno campioni al secondo, che a loro volta significano meno dati audio, poiché c’è un numero minore di punti di campionamento per rappresentare l’audio. La frequenza di campionamento viene scelta per una certa applicazione a seconda degli artefatti acustici che devono essere catturati. Alcuni artefatti acustici come il parlato richiedono una frequenza di campionamento più bassa di un artefatto acustico come una melodia in un CD musicale. È importante notare che le frequenze di campionamento più alte richiedono più spazio di archiviazione e potenza di elaborazione da gestire, anche se questo potrebbe non essere un problema così grande ora come lo era ai vecchi tempi quando l’archiviazione digitale e la potenza di elaborazione erano considerazioni primarie.
(2) Profondità del campione / Precisione del campione / Dimensione del campione
In aggiunta alla frequenza di campionamento, che è quanti punti dati dell’audio abbiamo, c’è anche la profondità del campione. Misurata in bit per campione, la profondità del campione, (conosciuta anche come precisione del campione o dimensione del campione), è la seconda proprietà importante di un file audio o flusso, e rappresenta il livello di dettaglio, o “qualità”, di ogni campione. Come abbiamo detto sopra, ogni campione audio è solo un numero, e mentre avere molti numeri è utile per rappresentare l’audio, è anche necessario che la gamma o “qualità” di ogni singolo numero sia abbastanza grande da rappresentare accuratamente ogni campione o punto dati.
Cosa significa “qualità”? Per un campione audio, significa semplicemente che il campione audio può rappresentare una gamma più alta di ampiezze. Una profondità di campionamento di 8 bit significa che abbiamo 2^8 = 256 ampiezze distinte che ogni campione audio può rappresentare, e una profondità di campionamento di 16 bit significa che abbiamo 2^16 = 65.536 ampiezze distinte che un campione audio può rappresentare, e così via per profondità di campionamento superiori. Le profondità di campionamento più comuni per l’audio della telefonia sono 16 bit e 32 bit. Più ampiezze distinte si hanno in una registrazione digitale, più la registrazione digitale suona vicina all’evento acustico originale.
Ancora una volta, questo è analogo ai numeri di 8bit o 16bit che potremmo sentire riguardo alla qualità dell’immagine. Per le immagini o i video, ogni pixel in un’immagine o in un fotogramma video ha anche un numero di bit per rappresentare il colore. Una maggiore profondità di bit in un pixel produce un pixel che è più accurato nei colori, poiché il pixel ha più bit per “descrivere” il colore da rappresentare su uno schermo, e il pixel o l’immagine nel complesso avrebbe un aspetto più realistico di come lo si vedrebbe nella vita reale. Più tecnicamente, la profondità di bit di un pixel indica quanti colori distinti possono essere rappresentati nel pixel. Se si permette a ciascuno di R, G e B di essere rappresentato da un numero di 8 bit, allora ogni pixel è rappresentato da 3 x 8 = 24 bit. Questo significa che ci sono 2^24 ~ 17 milioni di colori diversi che possono essere rappresentati da quel pixel.
(3) Bit Rate
Collegando la frequenza di campionamento e la profondità di campionamento è il bit rate, che è semplicemente il prodotto di entrambi. Poiché la frequenza di campionamento si misura in campioni al secondo e la profondità di campionamento si misura in bit per campione, si misura quindi in (campioni al secondo) x (bit per campione) = bit al secondo, abbreviato in bps o kbps. Vale la pena notare che poiché la profondità di campionamento e il bit rate sono correlati, spesso, ma erroneamente, vengono usati in modo intercambiabile.
Il bit rate nell’audio varia a seconda dell’applicazione. Le applicazioni che richiedono un’alta qualità audio, come la musica, di solito hanno un bit rate più alto che produce una qualità più alta, o un audio più “nitido”. L’audio della telefonia, incluso quello dei call center, non ha bisogno di un alto bit rate, e quindi il bit rate per una normale telefonata è solitamente molto più basso di quello di un CD musicale. Sia per la frequenza di campionamento che per il bit rate, valori più bassi potrebbero (letteralmente) suonare peggio, ma di nuovo, a seconda dell’applicazione, valori più bassi fanno risparmiare spazio di memoria e/o potenza di elaborazione.
Tutto sommato, cosa significa veramente compressione, quindi, quando si tratta di audio? I formati audio compressi, come AAC o MP3, hanno un bit rate che è un numero più piccolo del vero prodotto della frequenza di campionamento e della profondità di campionamento. I formati ottengono questo risultato rimuovendo “chirurgicamente” le informazioni dal flusso di bit per motivi percettivi, il che significa che — in contesti dinamici — quelle frequenze o ampiezze che non sono sentite dall’orecchio umano per ragioni biologiche non vengono memorizzate, portando a una dimensione complessiva del file più piccola.
Crediti a Kornel Laskowski, Chief Scientist di Voci, per la revisione dei dettagli tecnici di questo articolo.