Soul App自研端到端语音通话大模型上线拓展人机交互新体验

　　区别于传统的级联方案◆■，语音到语音的端到端建模，意味着语音交互体系的颠覆式升级■◆◆，即不再需要从★■★■■“语音识别■■■◆■、自然语言理解■◆★、语音生成◆★◆◆★”等多个环节流转◆★，直接语音输入—语音输出的端到端模型能够最大程度实现信息无损传递◆◆■■★◆，降低响应延迟时间◆■★■。

　　在延迟方面■◆，于实际应用过程中■■■★■★，用户体验与■★◆“异世界回响”中虚拟人实时语音通话效果时，延迟时间少于行业平均水平■◆◆◆◆★，真正实现即时的AI交流和陪伴■◆◆◆★◆。

　　中国网是国务院新闻办公室领导，中国外文出版发行事业局管理的国家重点新闻网站。本网通过10个语种11个文版，24小时对外发布信息◆■◆■■◆，是中国进行国际传播、信息交流的重要窗口。

　　值得一提的是，端到端的语音语义理解和响应以及更自然的语音指令控制，让Soul语音通话大模型不仅能够给予情感关怀■◆■、理解人声情绪情感并给出有温度的回应◆★，还能够理解物理世界的声音场景，模拟物理世界动物声音★◆■★、理解多人聊天内容，实现多风格语言切换、文艺内容创作和即兴演唱，接近现实交流互动场景需要。

　　此前◆■◆★，Soul团队推出了自研的语音生成大模型■★★◆◆、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力，支持真实音色生成◆■★、语音DIY◆★★■、多语言切换、多情感拟真人实时对话等，目前已应用于Soul ★★“AI苟蛋◆■★◆★◆”■★◆■◆★、站内狼人游戏“狼人魅影◆■■■”AI语音实时互动、独立新产品“异世界回响”等场景。

　　接下来，Soul将持续推进多模态端到端大模型能力建设和应用落地，以AI辅助社交、提升关系建立的质量和效率的同时，构建人机交互新场景，让用户可以与AI进行更加有温度、沉浸★◆★、趣味的互动交流，不断创新社交体验■★。

　　以AI升级社交的过程中■★★，Soul的技术重点之一是致力于实现拟人化◆■★◆◆★、自然化情感陪伴体验。其中，声音是重要环节之一。作为传递信息和情感的重要媒介，声音最能在沟通中赋予“情绪温度★◆◆★★”和“陪伴感”★◆■。特别是在社交场景中，情感化、低延迟★★◆◆■■、多风格、类真实的声音能力★◆◆，可以打破“次元壁■■■◆◆”，让线上社交尤其是人机互动中，也能实现真实生活场景聊天的自然流畅感和沉浸现场感，真正完成类现实生活化互动场景中的交互体验。

　　自2016年上线，Soul一直致力于以创新的技术方案和产品设计★■■，实现社交体验的拓展★■◆★■★。2020年，Soul启动对AIGC的技术研发工作，系统推进在智能对话◆◆★■、语音技术★◆★◆、虚拟人等AIGC关键技术能力研发工作，并推动AI能力在社交场景的深度落地。

　　2.未经本网授权不得转载■■■■◆、摘编或利用其它方式使用上述作品◆■★■★。已经本网授权使用作品的★■■◆◆★，应在授权范围内使用★◆，并注明“来源及作者”。违反上述声明者，本网将追究其相关法律责任■★★。

　　近日，社交平台Soul App(以下简称“Soul”)语音大模型再次升级，上线自研端到端全双工语音通话大模型，具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点■■★，能够直接理解丰富的声音世界，支持超拟人化的多风格语言■■◆■◆，实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。目前，Soul自研的端到端语音通话大模型能力已上线旗下◆◆■■“异世界回响”实时通话场景(内测中)，并将在后续拓展至AI苟蛋等多个AI陪伴、AI互动场景。

　　此次Soul自研的端到端语音通话大模型便具备超低交互延迟★◆■★、快速自动打断、超真实声音表达和丰富情绪感知理解能力的特点，支持更自然的人机交互体验◆■★■。

　　1.凡本网站注明“来源：中国网财经”的所有作品，均为本网合法拥有版权或有权使用的作品。

　　如今，自研端到端语音通话大模型的率先上线，再次证明了Soul在行业中扎实的技术能力积累■★■★★■。

　　与国际最前沿的技术发展保持同频◆■，Soul持续完善自身语音技术能力积累★★■◆■■，创新AI社交应用体验★◆◆。今年7月◆■■，在人工智能领域顶级的国际学术会议——国际人工智能联合会议(International Joint Conference on Artificial Intelligence★■◆◆★◆,IJCAI)举办的第二届多模态情感识别挑战赛(MER24)上，Soul 语音技术团队于SEMI(半监督学习)赛道获得第一名，在国际赛事舞台上展现了Soul的前沿洞察和技术能力。

　　因此★★，为给用户带来更好的情绪反馈和陪伴感◆■◆◆■★，情绪理解、延迟问题一直是Soul技术团队关注的焦点◆★◆■◆。

新闻中心

热点新闻

Soul App自研端到端语音通话大模型上线拓展人机交互新体验