AVS3P10实时语音编码标准获得重要进展

2023-12-20

由腾讯提交的AI Codec为基础的技术顺利通过评审，被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看，真正实现了低码率下质量是对齐OPUS、EVS中高码率的，达到运营级质量。我们在相近码率下，MOS分差过Google和Meta方案在0.6MO-1.0MOS。
AVS对此高度评价，“AVS3P10 实时语音编码，作为新一代的语音编解码技术标准，是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求，体现了业界最高水平，将为用户带来前所未有的性能和体验，引领行业进入一个全新的时代。”。对此，团队表示，希望这个进展可以推动产业界在AI Codec的技术演进和推广。
近日，AVS3P10实时语音编码标准获得重要进展。
2023年12月14日，第 87 次 AVS 工作组会议于成都开幕。会上，《智能媒体编码第 10 部分实时语音》 WD 1.0通过全体会议审议；腾讯提交的技术方案，被选择为AVS3P10实时语音编码的RM0基线。
实时语音通信技术，已广泛应用于协同办公、互动娱乐、社交等领域。上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战，其中，高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。
传统的语音编码器，包括AVS、ITU-T等标准语音编码器，在16-20kbps左右码率时，能够恢复出高质量宽带语音；在30-35kbps，可以恢复出高质量超宽带甚至全带语音。然而，当码率进一步降低，传统语音编码器恢复的质量下降明显，影响用户体验。
基于上述应用诉求，在今年3月第84次AVS会议上，由腾讯提议在AVS音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析，在第85次AVS会议上，AVS正式立项AV3P10实时语音编码项目，并通过AVS音频组发出技术征集书。AVS3P10实时语音编码项目将由来自腾讯会议天籁实验室的肖玮负责推进和维护。
在第 86 次 AVS 会议上，音频组审议了由腾讯会议天籁实验室提交的M7886《AVS3P10语音编码参考模型候选技术方案》提案。
审议指出该方案具有以下4点特征：深度融合了经典信号处理和深度神经网络技术等人工智能技术，属于AI Codec；支持低码率、高质量编码、实时编码和解码和多速率编码；基于子带编码和多模式编码架构，低频信号采用深度神经网络提取特征，高频信号采用频带扩展方案提取特征，结合标量量化和熵编码完成特征压缩；具有开放的编码神经网络架构技术特征，在保证码流前向兼容基础上，可以重新修改和优化编码神经网络。
AVS3P10实时语音编码标准获得重要进展 (https://ic.work/) 音视频电子第1张

今年11 月 1 日，腾讯会议天籁实验室提交AVS3P10 RM0候选方案的可执行文件，由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。交叉验证力求全面，基于 ITU-T P.800 DCR主观质量评价体系，主观测试覆盖不同带宽下纯净语音、丢包语音、混合语音等多场景，并首次将3A处理后的测试场景引入信源编码器测试中，以检验新一代AI Codec技术在贴近真实场景的表现。
在上述测试场景下，AVS3P10 RM0质量优势明显。主观测试结果表明，AVS3P10 RM0在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分，体现出明显优势，最低码率可达5.9kbps。AVS3P10 RM0采纳了深度神经网络技术，自带的丢包损伤能力，有效提升了编码器在网络不佳时的质量。
AVS3P10实时语音编码标准获得重要进展 (https://ic.work/) 音视频电子第4张

此外，在ITU-T P.863客观质量评价实验中，AVS3P10 RM0也体现出了显著优势。第一，在所有8个测试码率中，AVS3P10 RM0均超过4.0MOS，最高在4.45MOS。AVS3P10 RM0的质量，可以对齐OPUS和EVS等传统信号处理编码器在中高码率的表现，达到运营级质量。在AI Codec领域，AVS3P10 RM0在相近码率下，质量优势在0.6MOS以上。上述测试结论均反映出，AVS3P10 RM0代表了目前AI Codec的最高水平。
AVS3P10 实时语音编码，作为新一代的语音编解码技术标准，是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求，体现了业界最高水平，将为用户带来前所未有的性能和体验，引领行业进入一个全新的时代。
未来，AVS3P10实时语音编码项目，将按照既定计划推进。预计，在2024年年中，完成标准化工作。
AITISA联盟简介
新一代人工智能产业技术创新战略联盟由两百余家来自人工智能行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。联盟立足于人工智能技术资源及产业环境，联合人工智能领域的产、学、研、用、资、服等单位，以建立人工智能技术创新生态体系为基本愿景。联盟通过“一体两翼”的工作部署，聚集工业界、科研界的中坚力量及相关机构，利用产业基金的引导，服务企业与开发者，推进人工智能产业的发展。
“一体两翼”中的 “一体”是指新一代人工智能开源开放平台，“两翼”的“左翼”是以技术专家为主体组成的多个工作组，包括标准工作组、知识产权工作组、投融资工作组等。“右翼”是为以企业为主体的应用推进组，目的是促进人工智能在各产业领域的应用，已经在智能物流、智能医疗、智能政务、智能教育等方向开展工作。
自成立以来，联盟主办了全球人工智能产品应用博览会、系列AITech国际智能科技峰会、上交会人工智能展区、天津世界智能大会分论坛、启智开发者大会等有重大影响力的会展活动，承办全国人工智能大赛，发布并启动了新一代人工智能开源开放平台、“新一代人工智能燎原计划”等。

文章推荐

AVS3P10实时语音编码标准获得重要进展

相关推荐

国产减薄机在京交付，中电科引领，性能卓越，速览！

TM57P8640/P8645 8位MCU智能风扇设计，高效便捷，引领智能家居新潮流。

瑞萨智能垃圾箱，新一代RL78微控制器整合，引领环保科技新潮流。

海信E5N Pro电视，全新升级，视听盛宴，焕新美好生活。

速览高速吹风机制作技巧，轻松掌握，让风力更强！

中国超高清巅峰之作：双Vivid，引领视觉新纪元！

STM32蜂鸣器音乐播放教程，轻松入门，玩转音乐播放新体验！

小熊电器18载，6570天，如何打动青春心，引领时尚潮流？

千视机架式编解码器，革新AV over IP，引领行业新潮流。

高分音频与普通音频，音质天壤之别，揭秘两者差异，不容错过！

推荐

TrendForce集邦咨询: 预估2025年笔电品牌出货成长率将下修至1.4%

让英特尔再次伟大，新CEO推动18A提前量产，14A已在路上

晶振在网通应用增光添彩：中国移动实现数字乡村大升级

一文解析电磁场与电磁波的区别

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

详解CPU 的大小端模式

超详细解析！电阻在电路中的作用

最近更新

洲明科技再登“中国最具价值品牌500强”

帝奥微AMOLED显示屏电源管理芯片DIO53010简介

纳芯微LED线性恒流驱动NSL21610 汽车级40V/单通道具备散热加强功能

极海半导体GALT61120汽车前灯LED矩阵控制芯片荣获AEIF 2025 金芯奖

使用恩智浦FRDM LCD模组

【CW32模块使用】1.8寸彩色触摸屏

正方科技欧荷18S30AH智能电池在大载重无人机中的应用

广和通发布5G模组FG390系列

2025年OBC的新趋势：单级拓扑

谷歌I/O 2025大会前透露：Android 16接入Gemini，智能手机、XR设备升级