本篇文章2375字,读完约6分钟

10月31日,由livevideostackcon举办的以多媒体开放新视野为主题的livevideostackcon北京站如期召开。 作为多媒体技术行业的盛会,大会聚焦于音频、视频、图像等技术的最新探索与应用实践,包括教育、娱乐、医疗、安全、交通、制造、旅游、电子商务、金融、社会交流、游戏、智能设备、ic等 会议上,腾讯多媒体实验室专家肖鼈分享了“腾讯天籁:下行最后一厘米音频体验提升”的主题,阐述了腾讯天籁如何将经典信号解决技术与深度学习有机融合,实现互联网的 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

腾讯多媒体实验室专家研究员肖鼈

利用腾讯天籁音响 AI 技术,实现了端到端的音频通信体验

年始的疫情黑白天鹅事件,以数字通信手段作为人与人信息表达的重要手段,也对实时音视频通信的稳定性和通信效果造成了巨大的考验。 齐甲表示,为了应对实时音视频应用场景中的各种挑战,腾讯多媒体实验室围绕音频通信核心体验的技术和框架进行了多年的探索。 在今年9月召开的腾讯全球数字生态大会上,正式推出了面向直播音视频APP的新一代实时音响技术企业品牌“腾讯”。 该处理方案旨在提供实时端到端语音通信的完美处理方案,使客户能够在实时音视频会议上听到、听到、听到。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

据肖鼈介绍,rtc的场景多而杂,解决链长; 每个节点都会影响客户的终极体验。 但是,下行终端侧是最接近客户机最终体验的节点; 如果进行合理的设计,可以非常高效地提高客户的终极体验。 为此,腾讯提出了下行最后1厘米音频体验提升的概念,结合经典的音频信号解决和深度学习技术,设计并实现了基于上下文分解的前向纠错、丢包补偿方案。 发送方可以单独承受40%的丢包率,整体方案可以承受80%的丢包率。 客户在互联网环境下的通话体验非常有保障。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

基于先进的腾讯“堆叠”语音处理方案,腾讯不仅提供了不同的位置、场景、设备终端和远程访问,还提高了远程信息表示的效率,同时扩展了实时语音的语音带宽。 与以前流传的pstn电话音质相比,采用腾讯天籁技术后的音响音质更明亮、更清晰。 另外,音频算法的整体能力也进行了比较优化,可以引入到客户多样化的客户端,最终提高了音频通信的理解度、自然性和舒适度。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

另外,以腾讯会议为例,肖鼈现场展示了基于深度学习的语音增强方案在实际场景中的增强效果。 在长达两分钟的展示区,展示着地铁站、菜市场、街道等各种各样的噪音场景。 在这些场景中,基于深度学习的语音增强方案都提供了很好的解决效果,现场展示引起了现场观众的关注。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

另一方面,肖鼈强调建立端到端的质量评价和认证体系,对提高rtc场景下的体验也非常重要。 目前,腾讯多媒体实验室已经建立了完善的端到端通话质量评估和认证体系。 利用该系统,将天籁企业品牌下的各种技术进行腾讯,在产品落地前,必须通过该系统的严格测试。 另外,在技术研发过程中,该系统的测试结果,为研究者提供了重要的参考新闻,可以用于方案的打磨和优化。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

技术到公益,腾讯天籁技术外溢的产品力

目前,腾讯科技在腾讯会议、信息云、全民卡拉ok、小型等腾讯内外的产品、场景中广泛使用,相关APP应用在音视频体验上获得了良好的客户口碑。 / br// h// br// h /

不仅如此,在腾讯小小的无障碍项目交流中,腾讯多媒体实验室的团队成员们即使聋子戴着人工内耳,在机场、商场等喧闹的公共环境中,依然面临着听不清的烦恼 基于此,腾讯多媒体实验室联合国内最大的人工内耳制造商之一诺康( nurotron )开展了相关讨论和研究,经过长达半年的技术验证,从框架中最终明确了手机伙伴+人工内耳的合作处理方案。 通过对多种技术的优化和集成,语音的清晰度和理解度提高了40%。 提高的信号传到人工内耳后,聋子的听觉体验将得到大幅改善,聋子在能够听到的基础上,也能够听到和听到。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

9月27日,在国际聋人日,腾讯多媒体实验室将与腾讯公益慈善基金会、深圳市新闻无障碍研究会等机构联合举办发布会,免费面向公益开发者、设备制造商、非政府组织和领域开放腾讯的蒂亚拉ai音响技术 帮助听障人士处理听不懂的问题,邀请歌手周深担任公益大使,呼吁全社会关注听障人士身心康复,营造新闻无障碍环境。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

/ br// h// br// h /

腾讯天籁行动发布

另外,天籁行动不是普通的公益实践,而是基于科技完善的愿景进行体系化、持续建设的科技公益落地。 其背后的驱动机制是腾讯技术积累的技术外溢和技术迅速场景化落地的强大产品力。 / br// h// br// h /

作为腾讯旗下最先进的音视频通信解决研究开发团队,腾讯多媒体实验室提供实时音视频通信、音视频编解码前端算法研究、音视频国际标准、计算机视觉图像解决、端到端音频 其中,天籁技术是其经验和技术能力积累的重要成果之一。 / br// h// br// h /

“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

在5g的浪潮下,多媒体的技术和形式不断变化,高效低延迟的传输带来了更加丰富的落地场景。 未来,腾讯的音响技术也将加速腾讯旗下在金融、政务、教育等领域的实时音响视频诉求,让更多丰富的场景落地,给客户带来5g时代色彩的沉浸感。 / br// h// br// h /

标题:“腾讯多媒体实验室天籁AI音频技术“破圈”背后的“密码””

地址:http://www.dtygdst.com/dfmlxc/7718.html