电梯、地库里通话不卡顿,腾讯主导新一代实时语音编码行业标准 AVS3P10 即将发布

2024-06-27 www.dnxtw.com

电脑系统网 6 月 27 腾讯今天宣布,该公司领导的新一代实时语音编码行业标准 AVS3P10 定稿完成后,即将正式发布。

此次 AVS 音频组 AVS3P10 本标准采用腾讯侧方案,是腾讯会议第一个自主研发的神经网络语音编解码器 Penguins AI 以语音引擎为原型,可以提高弱网环境下的通话质量。

图片

腾讯表示,这是世界上第一个系统地引入人工智能,在低代码率下实现高质量的语音编码标准,达到国际一流水平。只需要 1/3 编码率可以达到与现有主流标准相同的清晰音质。“即使是网络卡,比如 2G,也能顺利开会”。

腾讯提议启动、推广和维护该标准。 AVS 音频组的许多成员单位都做出了共同的贡献。”在未来的在线会议、语音通话等实时音频场景中,带宽要求显著降低。即使在电梯、地下室、隧道等网络较差的环境中,也能实现清晰流畅的语音通话。”

图片

据报道,在有限的带宽条件下,压缩原始数据,去除冗余信息的语音编码技术是关键。然而,基于它 EVS、OPUS 当码率降低到现有的主流音频编解码标准时 10kbps 语音质量下降明显,影响用户体验。

为应对挑战,腾讯会议天籁实验室与腾讯合作 AI Lab 自主研究腾讯首款神经网络语音编解码器 ——Penguins。

具体来说,Penguins 将 AI 与传统技术相结合,打破传统香农定律的性能极限,引入大数据,在可控计算能力增量下提供新的性能界限,为下一代通信系统提供新的技术基础和方法论,特别是信源编码器。通过 AI 语音信号建模,提取核心特征参数编码,借助深度学习网络,预测和重建语音中的微妙结构,最终生成逼真的音频波形。

多方测试显示,腾讯提交的多方测试显示 AVS3P10 标准实现了 6kbps 即使在“2G”网络下,高质量的语音通信也能实现清晰的通话,主观质量非常接近原始参考信号,堪比国际主流 OPUS 标准在 20kbps 质量。同时,当主观质量与传统编码的中高码率相匹配时,编码效率得到了提高 200-300%。

2021 年起,Penguins 在腾讯会议上,音频编码器的驾驶模式、弱网模式和 QQ 在语音通话等场景中投入规模应用。

2023 年 3 腾讯团队在月 AVS 音频组提出并参与标准制定,即 AVS3P10 基于实时语音编码标准的腾讯随后提交。 Penguins 候选技术;通过 AVS 交叉验证后采用音频组。2024年 年 6 AVS3P10月 实时语音编码标准正式完成标准化,进入宣传阶段。

计算机系统网注:从 2002 年 6 月我国成立 AVS 工作组开始,十多年来,数千人的团队努力,中国独立的知识产权 AVS 应运而生。AVS3 它是世界上第一个推出的面向 8K 及 5G 工业应用的视频编码标准。

AVS 国际组长郑建华此前透露,AVS 已经启动 AVS4 制定和呼吁标准 AVS 会员单位继续支持 AVS 各厂商联合开展下一代标准开发,共同实现技术标准,共同出海,推动全球化部署。

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关阅读