以前のブログ投稿で、Rahul はオーディオ コーデックとトランスコーディングについて説明しました。 しかし、これらのオーディオ コーデックは圧縮という点で正確には何をするのか、また、そもそもオーディオ ファイルの品質は何で決まるのか。

オーディオ処理に関しては、ほとんどの人が聞いたことはあってもよく理解していない専門用語がたくさんあります。 私もオーディオ処理に携わる以前はその一人でした。 そのため、これらの用語のいくつかについて話し、それらが何であるかを説明し、オーディオ録音やストリームの品質にとってどのような意味を持つかを紹介したいと思います。 この記事の残りの部分では、非圧縮オーディオの 1 チャンネルだけを扱っていると仮定します。

(1) サンプリング レート/サンプリング周波数

最初によく耳にする用語はサンプリング レートやサンプリング周波数ですが、どちらも同じものを指しています。 8kHz、44.1kHz、48kHzといった値を目にしたことがあるのではないでしょうか。 オーディオファイルのサンプリングレートとは何ですか。

サンプリングレートとは、1秒間に録音される音声のサンプル数のことです。 1秒あたりのサンプル数またはヘルツ(HzまたはkHzと省略され、1kHzは1000Hzです)で測定されます。 オーディオサンプルは、特定の時点における音響波の測定値を表す数値に過ぎません。 これらのサンプルは、1秒間に時間的に等間隔で取得されることに注意することが非常に重要です。 例えば、サンプリングレートが8000Hzの場合、1秒間に8000個のサンプルがあればよいというわけではなく、1秒のちょうど8000分の1の間隔でサンプルを取得しなければならない。 この場合の1/8000はサンプリング間隔(秒単位)と呼ばれ、サンプリングレートは単純にその乗法逆数です。

サンプリングレートは、ビデオのフレームレートまたはFPS(fps)測定に類似しています。 ビデオは単に一連の画像で、この文脈では通常「フレーム」と呼ばれ、(少なくとも私たち人間には)連続した非中断の動きや運動の錯覚を与えるために、非常に速く前後に表示されます。 ビデオの場合、動きが正確に描写されることを保証するために、最低でも1秒間に24フレームが必要です。それ以下では、動きが途切れ途切れに見える可能性があり、連続した非中断の動きの錯覚を維持することができなくなります。 特に、フレーム間の動きが多いほど、この傾向が強くなります。 さらに、1 秒間に 1 フレームまたは 2 フレームのビデオでは、フレーム間で見逃すことが保証されている「一瞬の出来事」があるかもしれません。

オーディオでは、英語の音声を明確に表現するための最小サンプル数は、8000 Hz です。 それ未満を使用すると、さまざまな理由により、理解できない音声になる可能性があり、その 1 つは、類似した発話が互いに区別できなくなることです。 たとえば、5000 Hz では、/s/ と /sh/ や /f/ を区別することは困難です。

ビデオフレームについて説明しましたが、もう 1 つの用語としてオーディオフレームについて詳しく説明する価値があります。 オーディオサンプルとオーディオフレームは両方ともヘルツで測定されますが、同じものではありません。

サンプリング レートの最も一般的な値は、前述の 8kHz(電話通信で最も一般的)、44.1kHz(音楽 CD で最も一般的)、および 48kHz(映画のオーディオ トラックで最も一般的)です。 サンプリングレートが低いと、1秒あたりのサンプル数が少なくなり、オーディオを表現するためのサンプル点の数が少なくなるため、オーディオデータの量が少なくなります。 サンプリングレートは、どのような音響アーチファクトをキャプチャする必要があるかによって、特定のアプリケーションに選択されます。 発話などの音響アーチファクトは、音楽CDの曲のような音響アーチファクトよりも低いサンプリングレートを必要とするものがあります。 サンプリング レートが高いほど、より多くの記憶領域と処理能力が必要になることに注意することが重要ですが、デジタル記憶装置と処理能力が主要な考慮事項だった昔と比べると、今はそれほど大きな問題ではないかもしれません。 サンプルあたりのビット数で測定されるサンプル深度(サンプル精度またはサンプル サイズとも呼ばれます)は、オーディオ ファイルまたはストリームの 2 番目の重要な特性で、各サンプルの詳細度、つまり「品質」を表します。 上で述べたように、各オーディオ サンプルは単なる数字で、多くの数字を持つことはオーディオを表現するのに役立ちますが、個々の数字の範囲や「品質」は、各サンプルやデータ ポイントを正確に表現するのに十分大きくなければなりません。 音声サンプルの場合、それは単に音声サンプルがより高い範囲の振幅を表現できることを意味します。 8 ビットのサンプル深度は、各オーディオ サンプルが表現できる 2^8 = 256 の異なる振幅があることを意味し、16 ビットのサンプル深度は、オーディオ サンプルが表現できる 2^16 = 65,536 の異なる振幅があり、より高いサンプル深度ではそのようになります。 テレフォニーオーディオで最も一般的なサンプル深度は、16ビットと32ビットです。 デジタル録音でより多くの異なる振幅があればあるほど、デジタル録音は元の音響イベントに近く聞こえます

繰り返しになりますが、これは、画像品質について耳にすることのある 8 ビットまたは 16 ビットの数値に類似しています。 画像やビデオでは、画像やビデオフレームの各ピクセルに、色を表現するためのビット数があります。 画素のビット深度が高いほど、画面上で表現される色を「記述」するビット数が多くなり、画素や画像全体が実際の見え方に近くなるため、より正確な色が表現されます。 より専門的に言えば、画素のビット深度は、その画素で表現できる色の数を示しています。 R、G、Bをそれぞれ8ビットで表現すると、1画素は3×8=24ビットで表現されることになります。

(3) ビットレート

サンプリングレートとサンプルデプスを結びつけるのがビットレートで、これは単純に両者の積となります。 サンプリングレートは1秒あたりのサンプル数で、サンプルデプスは1サンプルあたりのビット数で測定されるので、(サンプル数)×(サンプルあたりのビット数)=ビット/秒(bpsまたはkbpsと略される)で測定されます。 サンプル深度とビットレートが関連しているため、これらは頻繁に、しかし誤って、同じように使用されていることは注目に値します。

オーディオのビットレートは、アプリケーションによって異なります。 音楽のように高い音質を必要とするアプリケーションでは、通常、ビットレートが高いほど高品質、または「鮮明な」オーディオを実現します。 コールセンターの音声を含むテレフォニー音声は、高いビットレートを必要としないため、通常の電話通話のビットレートは、音楽 CD のビットレートよりはるかに低いのが普通です。 サンプリング レートまたはビット レートのいずれについても、低い値は (文字通り) 音が悪いかもしれませんが、やはりアプリケーションによっては、低い値の方がストレージ領域や処理能力を節約することができます。 AAC や MP3 などの圧縮されたオーディオ フォーマットは、サンプリング レートとサンプル深度の真の積よりも小さいビット レートを持ちます。 このフォーマットは、ビット ストリームから知覚的根拠に基づいて情報を「外科的に」削除することで実現しています。つまり、動的なコンテキストでは、生物学的な理由により人間の耳には聞こえない周波数や振幅は保存されず、全体的に小さなファイル サイズになります。

admin

コメントを残す

メールアドレスが公開されることはありません。

lg