视频会议中音频信号处理的复杂性
视频会议是指两个远程参与方使用视频和音频进行通信。影响视频会议质量的主要因素有三个:
- 媒介传输质量, 比如: 无抖动, 高清画质;
- 音频质量, 比如: 低噪声,高清晰度, 固定的拾音距离;
- 视频质量, 比如, 更清晰的画质, 更智能的画面捕捉.
但是,因素二却是一个非常令人头疼的问题。用一个简单的图来说明视频会议场景。


对于近端房间,有很多可能性:
- N1: 小拥挤的房间只适合不到3人。
- N2: 中等大小的房间,可容纳6-8人。
- N3:可容纳15人左右的大型会议室。
- N4:特别大的房间,如培训室或会议室。
- F1: 人们可以使用专业设备在安静的会议室里拨号
- F2: 人们可以用耳机从办公桌上拨号
- F3: 人们可以在车里打电话,甚至在火车上也可以
- F4: 人们可以从家庭办公室拨号
- N1: 这是最简单的例子。在这种情况下,通常这个人坐在离音频捕捉设备很近的地方。只要设备能处理回声消除和有基本的噪声抑制,自动增益控制,这将极大提高我们的语音质量。然而,大多数音频设备甚至不能处理这种情况,因为设备不能很好地处理双讲通话。本案主要涉及一个问题。
- 双讲通话:当远端正在通话或远端有背景声音时,就变成双讲通话场景。为了确保远端能够清楚地听到对话,音频设备应该具有强大的双讲通话功能:全双工。
- N2 & N3:在这种情况下,通常涉及两个问题
- 到音频设备的距离:房间里只有一个设备,可能有人坐得离设备很近,有人坐得离设备很远。这使得被捕捉到的声音颤抖,这意味着对于坐得较近的人来说,被捕捉到的声音是丰富而有力的,而对于坐得较远的人来说,被捕捉到的声音是浅薄而微弱的。在这种情况下,我们建议使用菊花链装置,以确保所有的座位都能平等覆盖。下图显示了我们的设备和Jabra 710设备之间的区别。我们的设备可以在3米远的地方捕捉到强大而丰富的声音。
aligned_jabra_1m
aligned_jabra_3m
aligned_aw_1m
aligned_aw_3m
- 噪声: 会议室里人越多,一个严重的问题就是会产生更多的噪音。有些人可能在敲击键盘,有些人可能在敲桌子,有些人可能在打喷嚏。不幸的是,所有声称的“噪声块”技术都无法处理人们同时说话时产生的噪音。我们正在研究下一代基于深度学习的解决方案来解决这个问题。因此,请继续关注我们未来的产品更新。
- F1: 当人们在安静的环境中拨号时,会议系统应该能够处理双重通话。如前所述,大多数现有的解决方案都无法处理双重对话,而我们的解决方案可以很好地处理双讲通话。
aligned_aw_dtd
aligned_jabra_dtd
- F2: 当人们从他们的办公桌拨入电话时,他们的麦克风可能会接收到背景声音,比如路过的人发出的声音。这是一个连续双讲的案例。
aligned_jabra_sbg
aligned_aw_sbg
- F3: 人们也可以从他们的车里拨打电话,电话的另一端则是瞬间的噪音。
- F4: 人们可以从家庭办公室拨号
要处理所有这些情况,需要一个整体的方法,幸运的是,经过两年的努力与30多名工程师和科学家,我们能够交付这样一个设备。