翻译|音频数字化:它是如何工作的

翻译|音频数字化:它是如何工作的

文章图片

翻译|音频数字化:它是如何工作的

文章图片

翻译|音频数字化:它是如何工作的

如何将声音翻译成没有灵魂的0和1? 。 我们来看看熟悉的设备:计算机声音、视频、MP3、广播和流媒体、各种算法等等是如何工作的 。

本文没有实用价值 , 纯属娱乐 。
一点点物理知识声音是空气中的振动 。 就像水面上的波浪 , 在空气中 。 气压进入耳朵 , 耳朵里有敏感的部分 , 可以微妙地感受到空气的振动 。 这些振动被人们感知为声音 。 外太空没有声音 , 因为没有空气 。
频率 。 振动越快 , 我们感知到的声音就越弱 。 一个人感知的振动从每秒 20 次到每秒大约 2 万次不等 。 换句话说 , 这被称为振荡频率:赫兹 。 也就是说 , 我们听到的范围是从 20 赫兹到 20 千赫兹 。
相比之下 , 狗听到的频率40 赫兹到 60 千赫兹 , 因此狗的哨声不会被人类感知 , 但狗却能听到 。 狗的声音只是在 23-54 kHz 的范围内 。
振幅 。 振动越强 , 声音越大 , 反之亦然 。 你可以想象这是池塘表面波浪的高度:可能有小的涟漪(安静的声音) , 也可能有很大的强大波浪 。

将声音分成几段
现在让我们这样做:我们将第二个部分分成 4 个部分 , 并为每个部分找到幅度值:

我们在一秒钟内测量了四次波的状态 。 这称为采样 。
我们测量了四个点中每个点的幅度值 , 相对而言 , 收到了四个数字:+30、-50、-50 和 -60 。 从理论上讲 , 如果我们通过电流并将这四个电压施加到扬声器上 , 我们将能够再现相同的声音 。 但是有几个问题:
? 由于我们只在四个地方测量 , 错过了整个振荡 。
?我们最终会得到与原始声音相比非常失真的声音 。
以 4 的速率采样 , 对于声音来说太少了 。 要获得至少可以理解的语音 , 需要将一秒分成 8000 段 , 而对于音乐 , 通常 41000 段就足够了 。
让我们提高采样率:在同一单位时间内将声音切成更小的片段:

现在测量会更加准确 , 产生的声音也会更加自然 。
转换为数字在我们将声音分成小段并测量每个小段的幅度值后 , 我们可以用表格的形式记录下来:
时间?????    振幅
0.01 秒 。 ????5
0.02 秒 。 ????7
0.03 秒 。 ????10
如果我们把整个声音分成相等的段 , 那么时间就不能写了 , 因为我们知道它是如何变化的 , 在一行中写振幅值就足够了:
5 7 10 … ?21
为了让计算机理解这些数字 , 让我们把这些数字翻译成 二进制数系统 。 为简单起见 , 我们假设一个数字恰好占用 1 个字节的内存 , 但实际上 , 分配给该数字的字节越多 , 测量和音质就越准确 。 翻译后 , 我们得到:
00000101
00000111
00001010

11101011
计算机已经可以理解并以声音的形式重现现这个序列 。
现在如何播放声音? 使用扬声器或耳机——任何可以“推动空气”(即产生声波)的东西 。 在扬声器会产生空气振动 。
? 对扬声器施加一些电流 。 根据电流的强度 , 扬声器音圈会以不同的方式移动 。
? 要获得这种变化的电流 , 需要一个称为DAC