Într-o postare anterioară pe blog, Rahul a vorbit despre codecurile audio și transcodare, unele dintre acestea „comprimând” audio pentru a economisi spațiu de stocare. Dar ce anume fac aceste codecuri audio în ceea ce privește compresia și ce determină în primul rând calitatea unui fișier audio?

Când vine vorba de procesarea audio, există o mulțime de terminologie pe care majoritatea oamenilor au auzit-o înainte, dar nu o înțeleg cu adevărat. Obișnuiam să fiu una dintre aceste persoane înainte de a fi nevoit să lucrez la procesarea audio. În acest scop, am vrut să vorbesc despre unii dintre acești termeni, să descriu ce sunt și să prezint ce înseamnă ei pentru calitatea unei înregistrări sau a unui flux audio. Pentru restul acestei postări, vom presupune că avem de-a face cu un singur canal de audio necomprimat.

(1) Rata de eșantionare / Frecvența de eșantionare

Primul termen despre care auzim adesea este rata de eșantionare sau frecvența de eșantionare, care se referă amândouă la același lucru. Unele dintre valorile pe care este posibil să le fi întâlnit sunt 8kHz, 44,1kHz și 48kHz. Ce este mai exact frecvența de eșantionare a unui fișier audio?

Frecvența de eșantionare se referă la numărul de eșantioane de audio înregistrate la fiecare secundă. Se măsoară în eșantioane pe secundă sau hertzi (prescurtat Hz sau kHz, un kHz reprezentând 1000 Hz). Un eșantion audio este doar un număr care reprezintă valoarea măsurată a undei acustice la un anumit moment. Este foarte important să rețineți că aceste eșantioane sunt prelevate la momente echidistante în timp într-o secundă. De exemplu, dacă rata de eșantionare este de 8000 Hz, nu este suficient să existe 8000 de eșantioane eșantionate pe parcursul unei secunde; acestea trebuie să fie prelevate la un interval de exact 1/8000 de secundă. Numărul de 1/8000 în acest caz s-ar numi intervalul de eșantionare (măsurat în secunde), iar rata de eșantionare este pur și simplu inversul multiplicativ al acestuia.

Rata de eșantionare este analogă cu măsurarea ratei cadrelor sau FPS (cadre pe secundă) pentru videoclipuri. Un videoclip este pur și simplu o serie de imagini, numite de obicei în acest context „cadre”, afișate spate în spate foarte rapid pentru a da iluzia (cel puțin pentru noi, oamenii) unei mișcări sau a unei mișcări neîntrerupte continue.

În timp ce rata de eșantionare audio și rata cadrelor video sunt similare, minimul numeric obișnuit pentru o utilizare garantată în fiecare dintre ele este foarte diferit. Pentru video, este necesar un minim de 24 de cadre pe secundă pentru a garanta că mișcarea este descrisă cu acuratețe; mai puțin de atât, și mișcarea ar putea părea întreruptă, iar iluzia unei mișcări continue neîntrerupte nu poate fi menținută. Acest lucru este valabil cu atât mai mult cu cât între cadre apare mai multă mișcare. Mai mult, o înregistrare video cu 1 sau 2 cadre pe secundă ar putea avea evenimente de „fracțiune de secundă” care sunt garantate a fi ratate între cadre.

Pentru audio, numărul minim de eșantioane pe secundă pentru a reprezenta fără ambiguitate vorbirea în limba engleză este de 8000 Hz. Folosirea unui număr mai mic decât acesta ar duce la o vorbire care ar putea să nu fie inteligibilă din diverse motive, unul dintre acestea fiind modul în care enunțuri similare nu vor putea fi distinse unul de celălalt. Frecvențele de eșantionare mai mici confundă fonemele, sau sunetele dintr-o limbă, care au o energie semnificativă de înaltă frecvență; de exemplu, cu 5000 Hz, este dificil de distins /s/ de /sh/ sau /f/.

Dacă tot am menționat cadrele video, un alt termen care merită să fie elaborat este cel de cadre audio. Deși eșantioanele audio și cadrele audio sunt amândouă măsurate în Hertz, ele nu sunt același lucru. Un cadru audio este grupul de eșantioane audio pentru o instanță de timp care provin de la unul sau mai multe canale audio.

Cele mai comune valori pentru frecvența de eșantionare sunt cele menționate mai sus 8kHz (cel mai frecvent pentru comunicațiile telefonice), 44,1kHz (cel mai frecvent pentru CD-urile muzicale) și 48kHz (cel mai frecvent pentru pistele audio din filme). Frecvențele de eșantionare mai mici înseamnă mai puține eșantioane pe secundă, care, la rândul lor, înseamnă mai puține date audio, deoarece există un număr mai mic de puncte de eșantionare pentru a reprezenta sunetul. Frecvența de eșantionare este aleasă pentru o anumită aplicație în funcție de ce artefacte acustice trebuie să fie capturate. Anumite artefacte acustice, cum ar fi declarațiile vocale, necesită o rată de eșantionare mai mică decât un artefact acustic, cum ar fi o melodie muzicală de pe un CD muzical. Este important de reținut că frecvențele de eșantionare mai mari necesită mai mult spațiu de stocare și putere de procesare pentru a fi gestionate, deși acest lucru s-ar putea să nu fie o problemă atât de mare acum cum era în vremurile vechi, când stocarea digitală și puterea de procesare erau considerente primordiale.

(2) Sample Depth / Sample Precision / Sample Size

În plus față de frecvența de eșantionare, care reprezintă câte puncte de date audio avem, există și adâncimea de eșantionare. Măsurată în biți pe eșantion, adâncimea de eșantionare, (cunoscută și sub numele de precizia eșantionului sau dimensiunea eșantionului), este cea de-a doua proprietate importantă a unui fișier sau flux audio și reprezintă nivelul de detaliu sau „calitatea” pe care o are fiecare eșantion. După cum am menționat mai sus, fiecare eșantion audio este doar un număr și, deși faptul de a avea o mulțime de numere este util pentru a reprezenta audio, aveți nevoie, de asemenea, ca intervalul sau „calitatea” fiecărui număr individual să fie suficient de mare pentru a reprezenta cu acuratețe fiecare eșantion sau punct de date.

Ce înseamnă „calitate”? Pentru un eșantion audio, înseamnă pur și simplu că eșantionul audio poate reprezenta o gamă mai mare de amplitudini. O adâncime de eșantionare de 8 biți înseamnă că avem 2^8 = 256 de amplitudini distincte pe care le poate reprezenta fiecare eșantion audio, iar o adâncime de eșantionare de 16 biți înseamnă că avem 2^16 = 65.536 de amplitudini distincte pe care le poate reprezenta un eșantion audio, și așa mai departe pentru adâncimi de eșantionare mai mari. Cele mai comune adâncimi de eșantionare pentru audio de telefonie sunt 16 biți și 32 de biți. Cu cât avem mai multe amplitudini distincte într-o înregistrare digitală, cu atât înregistrarea digitală sună mai aproape de evenimentul acustic original.

Din nou, acest lucru este analog cu numerele de 8 sau 16 biți despre care am putea auzi în legătură cu calitatea imaginii. În cazul imaginilor sau videoclipurilor, fiecare pixel dintr-o imagine sau dintr-un cadru video are, de asemenea, un număr de biți pentru a reprezenta culoarea. O adâncime de biți mai mare într-un pixel produce un pixel care este mai precis din punct de vedere al culorilor, deoarece pixelul are mai mulți biți pentru a „descrie” culoarea care urmează să fie reprezentată pe un ecran, iar pixelul sau imaginea în ansamblu ar arăta mai realist față de modul în care cineva ar vedea-o în viața reală. Din punct de vedere tehnic, adâncimea de biți a unui pixel indică numărul de culori distincte care pot fi reprezentate în acel pixel. Dacă permiteți ca fiecare dintre R, G și B să fie reprezentată de un număr de 8 biți, atunci fiecare pixel este reprezentat de 3 x 8 = 24 de biți. Aceasta înseamnă că există 2^24 ~ 17 milioane de culori diferite care pot fi reprezentate de acel pixel.

(3) Rata de biți

Legând rata de eșantionare și adâncimea de eșantionare împreună este rata de biți, care este pur și simplu produsul celor două. Deoarece rata de eșantionare se măsoară în eșantioane pe secundă, iar adâncimea de eșantionare se măsoară în biți pe eșantion, aceasta se măsoară, prin urmare, în (eșantioane pe secundă) x (biți pe eșantion) = biți pe secundă, prescurtat bps sau kbps. Este demn de remarcat faptul că, deoarece adâncimea de eșantionare și rata de biți sunt legate între ele, ele sunt utilizate în mod frecvent, dar eronat, în mod interschimbabil.

Rata de biți în audio variază în funcție de aplicație. Aplicațiile care necesită o calitate audio ridicată, cum ar fi muzica, au, de obicei, o rată de biți mai mare care produce o calitate superioară sau un sunet mai „clar”. Sunetul de telefonie, inclusiv cel al centrelor de apeluri, nu are nevoie de o rată de biți mare, astfel că rata de biți pentru un apel telefonic obișnuit este de obicei mult mai mică decât cea a unui CD muzical. Fie pentru rata de eșantionare, fie pentru rata de biți, valorile mai mici ar putea suna (literalmente) mai rău, dar, din nou, în funcție de aplicație, valorile mai mici economisesc spațiu de stocare și/sau putere de procesare.

În concluzie, ce înseamnă cu adevărat compresie, atunci, când vine vorba de audio? Formatele audio comprimate, cum ar fi AAC sau MP3, au o rată de biți care este un număr oarecum mai mic decât produsul real al ratei de eșantionare și al adâncimii de eșantionare. Formatele obțin acest lucru prin faptul că informațiile sunt eliminate „chirurgical” din fluxul de biți pe motive de percepție, ceea ce înseamnă că — în contexte dinamice — acele frecvențe sau amplitudini care nu sunt auzite de urechea umană din motive biologice nu sunt stocate, ceea ce duce la o dimensiune generală mai mică a fișierului.

Merită lui Kornel Laskowski, cercetătorul șef al Voci, pentru revizuirea detaliilor tehnice ale acestui articol.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg