当最前沿的大模型和数字人技术融入到视频会议,我们的沟通体验将会迎来怎样的改变?

6月21日-6月23日,华为开发者大会(HDC 2024)在东莞松山湖正式举行。在首日的大会主题演讲中,华为常务董事,华为云CEO张平安介绍了盘古大模型在媒体领域的多项最新实践,其中就包括了应用于实时通信领域的AI同声传译能力。大会现场,国内外的参会者接入华为云会议,并各自用母语沟通,系统即可快速识别并实时翻译,每个人听到的都是母语,实现跨语种实时沟通。当参会者的数字人入会后,进一步实现了目标语言的口型匹配,成为当日会场的一大亮点。

盘古5.0提供AI同声传译能力,只会母语也能交流!icon-default.png?t=N7T8https://www.ixigua.com/7384616692791378459

大模型+数字人,翻译实现深度与温度并存

如今,线上的跨国会议越发普遍,但语言的隔阂始终是高效沟通的一大难题。出色的人类同传或许可以做到信达雅,但却面临着高昂成本等限制因素,无法做到每场会议都配备。这种情况下如果参会者外语不过关,造成交流的低效、相互的误解等问题,则会严重影响工作的推进。

面对这个难题,华为云会议在此前开发了智能字幕的功能,可以将语音转换成文字并进行翻译,最后以字幕的形式显示,初步解决了跨语言交流的障碍。如今,华为云会议再进一步,带来了基于盘古媒体大模型的AI同声传译功能。在翻译质量方面,大模型能够动态地关注输入句子的不同部分,更好地捕捉语言的多样性和复杂性,进而提高了对长句和复杂结构的处理能力,提升了翻译速度,将翻译的平均时延降低到5秒内,翻译的准确性提升到了93%以上,生成的翻译内容更加自然流畅。同时,通过结合华为云的数字人能力克隆出与会者的声音和形象,对方听到的不再是常见的机械且缺乏情感色彩的预制声音,而是沿用了发言人的音色和语气,另外,对方看到的视频画面,也是发言人讲对方母语的画面,而且实现了口型的精准匹配。

打破隔阂,还原最自然的交流状态

对比人工传译,华为云会议的AI同传速度更快,更便捷,任何大会小会能够随时开启,而且可支持64个传译频道,让跨语言交流的成本大幅下降;对比之前的字幕翻译,在大模型的加持之下,AI同传的翻译精准度更高,而且对于参会者来说,比起看字幕,直接听语音,结合音唇同步的效果,可以模拟出日常的面对面交流体验,更好的传递情绪。在亲切自然的沟通体验下,参会者的信息接受变得更好,灵感会被更多地激发。

多种AI加持,打造高效的会议体验

除了AI同传,华为云会议还有多项AI能力。比如通过智能降噪和屏蔽周围人声等功能,来获得一个清晰纯净的收听效果;通过自动纪要的能力,实现按角色进行归类记录,会后可以一键导出文本进行编辑,从而保证不遗漏任何关键信息。接下来,华为云会议将基于HarmonyOS建下一代原生会议体验,借助跨设备分布式流转功能,实现会议在手机、PC、PAD、TV、车机等鸿蒙设备间自动流转接续;PC开会时,也可以使用手机作为音视频外设,进行视频画面传输,语音播放等能力,提升开会体验。

如今,云会议作为企业办公协作体系的重要组成,极大地促进了沟通协作方式的革新。随着各项AI能力的不断引入,华为云会议将进一步促进企业的创新和生产力的提升,成为推动企业向智能化办公转型的关键力量。

点击关注,第一时间了解华为云新鲜技术~

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐