Edellisessä blogikirjoituksessa Rahul puhui äänikoodekkeista ja transkoodauksesta, joista osa ”pakkaa” ääntä tallennustilan säästämiseksi. Mutta mitä nämä äänikoodekit tarkalleen ottaen tekevät pakkauksen suhteen, ja mikä ylipäätään määrittää äänitiedoston laadun?
Audiokäsittelyn yhteydessä on paljon terminologiaa, jonka useimmat ihmiset ovat kuulleet ennenkin, mutta eivät oikein ymmärrä. Olin ennen yksi näistä ihmisistä, ennen kuin jouduin työskentelemään äänenkäsittelyn parissa. Siksi halusin puhua joistakin näistä termeistä, kuvata, mitä ne ovat, ja esitellä, mitä ne tarkoittavat äänitallenteen tai -virran laadun kannalta. Loppupuolella tätä viestiä oletamme, että käsittelemme vain yhtä kanavaa pakkaamatonta ääntä.
(1) Näytteenottotaajuus / näytteenottotaajuus
Ensimmäinen termi, josta usein kuulemme, on näytteenottotaajuus tai näytteenottotaajuus, jotka molemmat viittaavat samaan asiaan. Joitakin arvoja, joihin olet ehkä törmännyt, ovat 8kHz, 44.1kHz ja 48kHz. Mikä tarkalleen ottaen on äänitiedoston näytteenottotaajuus?
Näytteenottotaajuudella tarkoitetaan joka sekunti tallennettujen ääninäytteiden määrää. Se mitataan näytteinä sekunnissa tai hertseinä (lyhenne Hz tai kHz, yksi kHz on 1000 Hz). Ääninäyte on vain numero, joka edustaa mitattua akustisen aallon arvoa tiettynä ajankohtana. On erittäin tärkeää huomata, että nämä näytteet otetaan sekunnin ajallisesti samassa ajassa olevina hetkinä. Jos näytteenottotaajuus on esimerkiksi 8000 Hz, ei riitä, että näytteitä otetaan 8000 sekunnin aikana, vaan ne on otettava täsmälleen 1/8000 sekunnin välein. Lukua 1/8000 kutsutaan tässä tapauksessa näytteenottoväliksi (sekunteina mitattuna), ja näytteenottotaajuus on yksinkertaisesti sen kerrottu käänteisluku.
Näytteenottotaajuus on analoginen videoiden kuvataajuuden tai FPS-mittauksen (frames per second) kanssa. Video on yksinkertaisesti sarja kuvia, joita yleensä kutsutaan tässä yhteydessä ”kehyksiksi” ja jotka näytetään hyvin nopeasti peräkkäin antaen illuusion (ainakin meille ihmisille) jatkuvasta, keskeytymättömästä liikkeestä tai liikkeestä.
Vaikka äänen näytteenottotaajuus ja videon kehysnopeus ovat samankaltaisia, tavanomainen numeerinen minimi, jolla taataan molempien käyttökelpoisuus, on hyvin erilainen. Videon osalta vaaditaan vähintään 24 kuvaa sekunnissa, jotta voidaan taata, että liike kuvataan tarkasti; tätä lyhyemmällä aikavälillä liike saattaa näyttää katkonaiselta, eikä illuusiota jatkuvasta, keskeytymättömästä liikkeestä voida säilyttää. Tämä pätee erityisesti sitä enemmän, mitä enemmän liikettä tapahtuu kuvien välillä. Lisäksi videossa, jossa on 1 tai 2 kuvaa sekunnissa, saattaa olla ”sekunnin murto-osan” tapahtumia, jotka jäävät taatusti pois kuvien välistä.
Audion osalta näytteiden vähimmäismäärä sekunnissa englanninkielisen puheen yksiselitteiseksi esittämiseksi on 8000 Hz. Tätä pienemmän määrän käyttäminen johtaisi puheeseen, joka ei ehkä olisi ymmärrettävää monista eri syistä, joista yksi on se, miten samankaltaiset lausahdukset eivät ole erotettavissa toisistaan. Pienemmät näytteenottotaajuudet sekoittavat foneemit eli kielen äänteet, joissa on merkittävää korkeataajuista energiaa; esimerkiksi 5000 Hz:n näytteenottotaajuudella on vaikea erottaa /s/:tä /sh/:stä tai /f/:stä.
Koska mainitsimme videokehykset, toinen termi, jota kannattaa käsitellä tarkemmin, on äänikehykset. Vaikka ääninäytteet ja äänikehykset mitataan molemmat hertseissä, ne eivät ole sama asia. Äänikehys on aikayksikön ääninäytteiden ryhmä, joka tulee yhdestä tai useammasta äänikanavasta.
Näytteenottotaajuuden yleisimmät arvot ovat edellä mainitut 8 kHz (yleisin puhelinliikenteessä), 44,1 kHz (yleisin musiikki-CD-levyillä) ja 48 kHz (yleisin elokuvien ääniraidoissa). Pienemmät näytteenottotaajuudet merkitsevät vähemmän näytteitä sekunnissa, mikä puolestaan merkitsee vähemmän äänidataa, koska äänen esittämiseen tarvitaan pienempi määrä näytteenottopisteitä. Näytteenottotaajuus valitaan tiettyä sovellusta varten sen mukaan, mitä akustisia artefakteja halutaan tallentaa. Jotkin akustiset artefaktit, kuten puheäänet, edellyttävät pienempää näytteenottotaajuutta kuin akustiset artefaktit, kuten musiikki-cd:n sävelet. On tärkeää huomata, että korkeammat näytteenottotaajuudet vaativat enemmän tallennustilaa ja prosessointitehoa, vaikka tämä ei ehkä olekaan enää niin suuri ongelma kuin ennen vanhaan, kun digitaalinen tallennustila ja prosessointiteho olivat ensisijaisen tärkeitä.
(2) Näytteenottosyvyys / Näytteenottotarkkuus / Näytekoko
Näytteenottotaajuuden, joka tarkoittaa sitä, kuinka monta datapistettä äänitiedostoa meillä on käytössämme, lisäksi on myös näytteenottosyvyys. Näytteenottosyvyys mitattuna bitteinä näytettä kohti (tunnetaan myös nimellä näytetarkkuus tai näytekoko) on äänitiedoston tai -virran toinen tärkeä ominaisuus, ja se edustaa kunkin näytteen yksityiskohtaisuuden eli ”laadun” tasoa. Kuten edellä mainittiin, jokainen ääninäyte on pelkkä numero, ja vaikka monista numeroista on hyötyä äänen esittämisessä, jokaisen yksittäisen numeron vaihteluvälin tai ”laadun” on oltava riittävän suuri, jotta jokainen näyte tai datapiste voidaan esittää tarkasti.
Mitä ”laatu” tarkoittaa? Ääninäytteen osalta se tarkoittaa yksinkertaisesti sitä, että ääninäyte voi edustaa suurempaa amplitudien vaihteluväliä. 8 bitin näytesyvyys tarkoittaa, että meillä on 2^8 = 256 erillistä amplitudia, joita kukin ääninäyte voi edustaa, ja 16 bitin näytesyvyys tarkoittaa, että meillä on 2^16 = 65 536 erillistä amplitudia, joita ääninäyte voi edustaa, ja niin edelleen suuremmilla näytesyvyyksillä. Yleisimmät näytteenottosyvyydet puhelinäänessä ovat 16 ja 32 bittiä. Mitä enemmän erillisiä amplitudeja digitaalisessa äänitteessä on, sitä lähempänä digitaalinen äänite kuulostaa alkuperäiseltä akustiselta tapahtumalta.
Tämä on taas analoginen asia 8-bittisten tai 16-bittisten lukujen kanssa, joista saatamme kuulla kuvanlaadun osalta. Kuvien tai videoiden osalta kuvan tai videokuvan jokaisella pikselillä on myös tietty määrä bittejä, jotka kuvaavat väriä. Kun pikselin bittisyvyys on suurempi, pikseli on väritarkempi, koska pikselillä on enemmän bittejä kuvaamaan kuvaruudulla esitettävää väriä, ja pikseli tai kuva näyttää kaiken kaikkiaan realistisemmalta kuin mitä se näyttäisi todellisessa elämässä. Teknisesti pikselin bittisyvyys kertoo, kuinka monta eri väriä pikselissä voidaan esittää. Jos jokainen R-, G- ja B-väri voidaan esittää 8-bittisellä numerolla, kutakin pikseliä edustaa 3 x 8 = 24 bittiä. Tämä tarkoittaa, että kyseisellä pikselillä voidaan esittää 2^24 ~ 17 miljoonaa erilaista väriä.
(3) Bittinopeus
Näytteenottotaajuuden ja näytteenottosyvyyden yhdistävä tekijä on bittinopeus, joka on yksinkertaisesti molempien tulo. Koska näytteenottotaajuus mitataan näytteinä sekunnissa ja näytteenottosyvyys mitataan bitteinä näytettä kohti, se mitataan siis (näytteitä sekunnissa) x (bittejä näytettä kohti) = bittejä sekunnissa, lyhennettynä bps tai kbps. On syytä huomata, että koska näytteenottosyvyys ja bittinopeus liittyvät toisiinsa, niitä käytetään usein, mutta virheellisesti, keskenään vaihdettavina.
Audion bittinopeus vaihtelee sovelluksesta riippuen. Korkeaa äänenlaatua vaativissa sovelluksissa, kuten musiikissa, käytetään yleensä suurempaa bittinopeutta, joka tuottaa laadukkaampaa tai ”terävämpää” ääntä. Puhelinääni, mukaan lukien puhelinkeskusten ääni, ei tarvitse korkeaa bittinopeutta, joten tavallisen puhelun bittinopeus on yleensä paljon pienempi kuin musiikki-CD:n bittinopeus. Joko näytteenottotaajuuden tai bittinopeuden osalta matalammat arvot saattavat (kirjaimellisesti) kuulostaa huonommalta, mutta taas sovelluksesta riippuen matalammat arvot säästävät tallennustilaa ja/tai prosessointitehoa.
Kaiken kaikkiaan, mitä kompressio sitten oikeastaan tarkoittaa, kun kyse on äänestä? Pakatuissa audioformaateissa, kuten AAC tai MP3, bittinopeus on jokin pienempi luku kuin näytteenottotaajuuden ja näytteenottosyvyyden todellinen tulo. Nämä formaatit saavuttavat tämän siten, että bittivirrasta poistetaan ”kirurgisesti” tietoa havaintoperustein, mikä tarkoittaa, että — dynaamisissa yhteyksissä — niitä taajuuksia tai amplitudeja, joita ihmiskorva ei biologisista syistä kuule, ei tallenneta, mikä johtaa yleisesti pienempään tiedostokokoon.
Krediitit Kornel Laskowskille, Vocin johtavalle tiedemiehelle, tämän artikkelin teknisten yksityiskohtien tarkistamisesta.