In einem früheren Blogbeitrag sprach Rahul über Audiocodecs und Transkodierung, von denen einige Audio „komprimieren“, um Speicherplatz zu sparen. Aber was genau tun diese Audiocodecs in Bezug auf die Komprimierung, und was bestimmt überhaupt die Qualität einer Audiodatei?

Wenn es um Audioverarbeitung geht, gibt es eine Menge Terminologie, die die meisten Leute schon einmal gehört haben, aber nicht wirklich verstehen. Ich gehörte zu diesen Leuten, bevor ich mich mit der Audiobearbeitung beschäftigt habe. Aus diesem Grund möchte ich einige dieser Begriffe erklären und aufzeigen, was sie für die Qualität einer Audioaufnahme oder eines Streams bedeuten. Für den Rest dieses Beitrags gehen wir davon aus, dass wir es nur mit einem Kanal unkomprimierten Tons zu tun haben.

(1) Abtastrate / Abtastfrequenz

Der erste Begriff, von dem wir oft hören, ist die Abtastrate oder die Abtastfrequenz, die sich beide auf dasselbe beziehen. Einige der Werte, die Sie vielleicht kennen, sind 8kHz, 44,1kHz und 48kHz. Was genau ist die Abtastrate einer Audiodatei?

Die Abtastrate bezieht sich auf die Anzahl der pro Sekunde aufgenommenen Audiosamples. Sie wird in Samples pro Sekunde oder Hertz (abgekürzt als Hz oder kHz, wobei ein kHz 1000 Hz entspricht) gemessen. Ein Audio-Sample ist lediglich eine Zahl, die den gemessenen Schallwellenwert zu einem bestimmten Zeitpunkt darstellt. Es ist sehr wichtig zu beachten, dass diese Abtastwerte zu zeitlich gleichen Zeitpunkten innerhalb einer Sekunde genommen werden. Wenn die Abtastrate z. B. 8000 Hz beträgt, reicht es nicht aus, dass in einer Sekunde 8000 Abtastungen vorgenommen werden, sondern sie müssen im Abstand von genau 1/8000 einer Sekunde erfolgen. Die Zahl 1/8000 wird in diesem Fall als Abtastintervall bezeichnet (gemessen in Sekunden), und die Abtastrate ist einfach der Kehrwert dieser Zahl.

Die Abtastrate ist analog zur Messung der Bildrate oder FPS (Bilder pro Sekunde) für Videos. Ein Video ist einfach eine Reihe von Bildern, in diesem Zusammenhang gewöhnlich „Frames“ genannt, die sehr schnell hintereinander angezeigt werden, um die Illusion (zumindest für uns Menschen) einer kontinuierlichen, nicht unterbrochenen Bewegung zu vermitteln.

Während die Audio-Abtastrate und die Video-Frame-Rate ähnlich sind, ist das übliche numerische Minimum für garantierte Nutzbarkeit in beiden Fällen sehr unterschiedlich. Bei Video ist ein Minimum von 24 Bildern pro Sekunde erforderlich, um eine akkurate Bewegungsdarstellung zu gewährleisten; bei weniger kann die Bewegung abgehackt erscheinen, und die Illusion einer kontinuierlichen, nicht unterbrochenen Bewegung kann nicht aufrechterhalten werden. Dies gilt umso mehr, je mehr Bewegung zwischen den Einzelbildern vorkommt. Darüber hinaus kann ein Video mit 1 oder 2 Bildern pro Sekunde „Sekundenbruchteile“ enthalten, die garantiert zwischen den Bildern verpasst werden.

Für Audio beträgt die Mindestanzahl von Samples pro Sekunde zur eindeutigen Darstellung englischer Sprache 8000 Hz. Eine geringere Abtastrate würde dazu führen, dass die Sprache aus verschiedenen Gründen unverständlich ist, u. a. weil ähnliche Äußerungen nicht voneinander unterschieden werden können. Niedrigere Abtastraten führen dazu, dass Phoneme oder Laute in einer Sprache, die eine signifikante Hochfrequenzenergie haben, durcheinander gebracht werden; bei 5000 Hz ist es zum Beispiel schwierig, /s/ von /sh/ oder /f/ zu unterscheiden.

Da wir Video-Frames erwähnt haben, ist ein weiterer Begriff, der näher erläutert werden sollte, der der Audio-Frames. Obwohl Audio-Samples und Audio-Frames beide in Hertz gemessen werden, sind sie nicht dasselbe. Ein Audio-Frame ist eine Gruppe von Audio-Samples für einen bestimmten Zeitraum, die von einem oder mehreren Audiokanälen stammen.

Die gebräuchlichsten Werte für die Abtastrate sind die bereits erwähnten 8kHz (am häufigsten bei Telefongesprächen), 44,1kHz (am häufigsten bei Musik-CDs) und 48kHz (am häufigsten bei Audiospuren in Filmen). Niedrigere Abtastraten bedeuten weniger Abtastungen pro Sekunde, was wiederum weniger Audiodaten bedeutet, da eine geringere Anzahl von Abtastpunkten für die Darstellung des Tons zur Verfügung steht. Die Abtastrate wird für eine bestimmte Anwendung gewählt, je nachdem, welche akustischen Artefakte erfasst werden sollen. Einige akustische Artefakte, wie z. B. Sprachäußerungen, erfordern eine niedrigere Abtastrate als ein akustisches Artefakt, wie z. B. eine Musikmelodie auf einer Musik-CD. Es ist wichtig anzumerken, dass höhere Abtastraten mehr Speicherplatz und Verarbeitungsleistung erfordern, auch wenn dies heute nicht mehr so wichtig ist wie früher, als digitaler Speicherplatz und Verarbeitungsleistung im Vordergrund standen.

(2) Abtasttiefe / Abtastpräzision / Abtastgröße

Zusätzlich zur Abtastrate, die angibt, wie viele Datenpunkte von Audio wir haben, gibt es auch die Abtasttiefe. Gemessen in Bits pro Sample ist die Sample-Tiefe (auch bekannt als Sample-Präzision oder Sample-Größe) die zweite wichtige Eigenschaft einer Audiodatei oder eines Audio-Streams und gibt den Detailgrad oder die „Qualität“ jedes Samples an. Wie bereits erwähnt, ist jedes Audio-Sample nur eine Zahl, und obwohl viele Zahlen für die Darstellung von Audio hilfreich sind, muss der Bereich oder die „Qualität“ jeder einzelnen Zahl groß genug sein, um jedes Sample oder jeden Datenpunkt genau zu repräsentieren.

Was bedeutet „Qualität“? Für ein Audio-Sample bedeutet es einfach, dass das Audio-Sample einen größeren Bereich von Amplituden darstellen kann. Eine Abtasttiefe von 8 Bit bedeutet, dass wir 2^8 = 256 verschiedene Amplituden haben, die jedes Audio-Sample darstellen kann, und eine Abtasttiefe von 16 Bit bedeutet, dass wir 2^16 = 65.536 verschiedene Amplituden haben, die ein Audio-Sample darstellen kann, und so weiter für höhere Abtasttiefen. Die gebräuchlichsten Abtasttiefen für Telefonie-Audio sind 16 Bit und 32 Bit. Je mehr unterschiedliche Amplituden in einer digitalen Aufnahme vorhanden sind, desto näher klingt die digitale Aufnahme am akustischen Originalereignis.

Auch dies ist analog zu den 8-Bit- oder 16-Bit-Zahlen, von denen man bei der Bildqualität hört. Bei Bildern oder Videos hat jedes Pixel in einem Bild oder einem Videobild ebenfalls eine Anzahl von Bits, um die Farbe darzustellen. Je höher die Bittiefe eines Pixels ist, desto genauer ist die Farbwiedergabe, da das Pixel mehr Bits hat, um die auf dem Bildschirm darzustellende Farbe zu „beschreiben“, und das Pixel oder Bild insgesamt realistischer aussieht, als man es in der Realität sehen würde. Technisch gesehen gibt die Bittiefe eines Pixels an, wie viele verschiedene Farben in dem Pixel dargestellt werden können. Wenn Sie zulassen, dass R, G und B jeweils durch eine 8-Bit-Zahl dargestellt werden, dann wird jedes Pixel durch 3 x 8 = 24 Bits dargestellt. Das bedeutet, dass es 2^24 ~ 17 Millionen verschiedene Farben gibt, die von diesem Pixel dargestellt werden können.

(3) Bitrate

Die Verbindung zwischen der Abtastrate und der Abtasttiefe ist die Bitrate, die einfach das Produkt aus beiden ist. Da die Abtastrate in Samples pro Sekunde und die Abtasttiefe in Bits pro Sample gemessen wird, wird sie in (Samples pro Sekunde) x (Bits pro Sample) = Bits pro Sekunde gemessen, abgekürzt als bps oder kbps. Da die Abtasttiefe und die Bitrate miteinander verbunden sind, werden sie häufig, aber fälschlicherweise, synonym verwendet.

Die Bitrate im Audiobereich variiert je nach Anwendung. Anwendungen, die eine hohe Audioqualität erfordern, wie z. B. Musik, haben in der Regel eine höhere Bitrate, die eine höhere Qualität oder „schärferen“ Ton liefert. Bei Telefongesprächen, auch in Call-Centern, ist keine hohe Bitrate erforderlich, so dass die Bitrate für ein normales Telefongespräch in der Regel viel niedriger ist als bei einer Musik-CD. Sowohl bei der Abtastrate als auch bei der Bitrate können niedrigere Werte (im wahrsten Sinne des Wortes) schlechter klingen, aber auch hier gilt, dass je nach Anwendung mit niedrigeren Werten Speicherplatz und/oder Rechenleistung gespart werden kann.

Zusammenfassend lässt sich also sagen, was Komprimierung im Audiobereich wirklich bedeutet. Komprimierte Audioformate wie AAC oder MP3 haben eine Bitrate, die eine kleinere Zahl ist als das eigentliche Produkt aus Abtastrate und Abtasttiefe. Diese Formate erreichen dies, indem Informationen aus dem Bitstrom aus Wahrnehmungsgründen „chirurgisch“ entfernt werden, was bedeutet, dass — in dynamischen Zusammenhängen — jene Frequenzen oder Amplituden, die vom menschlichen Ohr aus biologischen Gründen nicht gehört werden, nicht gespeichert werden, was zu einer insgesamt geringeren Dateigröße führt.

Lobende Erwähnung verdient Kornel Laskowski, Voci’s Chief Scientist, für die Überprüfung der technischen Details dieses Artikels.

admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg