视频会议中音频信号处理的复杂性

视频会议是指两个远程参与方使用视频和音频进行通信。影响视频会议质量的主要因素有三个:

  1. 媒介传输质量, 比如: 无抖动, 高清画质;
  2. 音频质量, 比如: 低噪声,高清晰度, 固定的拾音距离;
  3. 视频质量, 比如, 更清晰的画质, 更智能的画面捕捉.
由于新的基于saas的视频会议解决方案,如Zoom,谷歌Meet,微软团队以及在接入点和宽带方面更好的互联网速度,因素一已经被得到了很好的解决。 我们可以在几乎任何时间、任何地点进行非常流畅、无抖动的视频会议。
但是,因素二却是一个非常令人头疼的问题。用一个简单的图来说明视频会议场景。
近端房间用N表示的人需要与远端房间用F表示的人通信。

对于近端房间,有很多可能性:
  • N1: 小拥挤的房间只适合不到3人。
  • N2: 中等大小的房间,可容纳6-8人。
  • N3:可容纳15人左右的大型会议室。
  • N4:特别大的房间,如培训室或会议室。
远端则有更多的可能性:
  • F1: 人们可以使用专业设备在安静的会议室里拨号
  • F2: 人们可以用耳机从办公桌上拨号
  • F3: 人们可以在车里打电话,甚至在火车上也可以
  • F4: 人们可以从家庭办公室拨号
让我们试着把问题简化一点,假设近端房间布置得很好,很安静,没有回音。让我们分析每种情况的复杂性。
  • N1: 这是最简单的例子。在这种情况下,通常这个人坐在离音频捕捉设备很近的地方。只要设备能处理回声消除和有基本的噪声抑制,自动增益控制,这将极大提高我们的语音质量。然而,大多数音频设备甚至不能处理这种情况,因为设备不能很好地处理双讲通话。本案主要涉及一个问题。
    • 双讲通话:当远端正在通话或远端有背景声音时,就变成双讲通话场景。为了确保远端能够清楚地听到对话,音频设备应该具有强大的双讲通话功能:全双工。
  • N2 & N3:在这种情况下,通常涉及两个问题
    • 到音频设备的距离:房间里只有一个设备,可能有人坐得离设备很近,有人坐得离设备很远。这使得被捕捉到的声音颤抖,这意味着对于坐得较近的人来说,被捕捉到的声音是丰富而有力的,而对于坐得较远的人来说,被捕捉到的声音是浅薄而微弱的。在这种情况下,我们建议使用菊花链装置,以确保所有的座位都能平等覆盖。下图显示了我们的设备和Jabra 710设备之间的区别。我们的设备可以在3米远的地方捕捉到强大而丰富的声音。


aligned_jabra_1m



aligned_jabra_3m



aligned_aw_1m



aligned_aw_3m


  • 噪声: 会议室里人越多,一个严重的问题就是会产生更多的噪音。有些人可能在敲击键盘,有些人可能在敲桌子,有些人可能在打喷嚏。不幸的是,所有声称的“噪声块”技术都无法处理人们同时说话时产生的噪音。我们正在研究下一代基于深度学习的解决方案来解决这个问题。因此,请继续关注我们未来的产品更新。
在远端,也有很多挑战:
  • F1: 当人们在安静的环境中拨号时,会议系统应该能够处理双重通话。如前所述,大多数现有的解决方案都无法处理双重对话,而我们的解决方案可以很好地处理双讲通话。


aligned_aw_dtd



aligned_jabra_dtd

  • F2: 当人们从他们的办公桌拨入电话时,他们的麦克风可能会接收到背景声音,比如路过的人发出的声音。这是一个连续双讲的案例。


aligned_jabra_sbg



aligned_aw_sbg


  • F3: 人们也可以从他们的车里拨打电话,电话的另一端则是瞬间的噪音。
  • F4: 人们可以从家庭办公室拨号
在会议环境中,有带玻璃窗的小办公室和连大理石地板的大办公室。这些不同房间的过渡路径为会议设备带来了更多的挑战。
要处理所有这些情况,需要一个整体的方法,幸运的是,经过两年的努力与30多名工程师和科学家,我们能够交付这样一个设备。

发表评论