近日,社交平台Soul App宣布,其自主研发的端到端全双工语音通话大模型正式上线。此次升级,标志着Soul在技术创新及人机互动优化方面迈出了坚实的一步。
自2016年成立以来,Soul从始至终坚持以技术创新为核心驱动力,不断探索社交体验的多种可能性。随着人工智能技术的加快速度进行发展,Soul早在2020年便开启了人工智能生成内容(AIGC)的研究与开发工作,并涉足包括智能对话和语音技术在内的多个领域。Soul的语音技术团队也热情参加国际技术交流。在今年7月举行的国际人工智能联合会议(IJCAI)中,该团队参加了多模态情感识别挑战赛,并在SEMI赛道上取得了第一名,充分展示了Soul在语音技术领域的优秀实力。
作为人际交往中不可或缺的一部分,声音是传达信息和情感的最有效的方式之一。基于声音在社交中的及其重要的作用,Soul致力于通过技术创新来增强声音在社交中的表现力。此前,Soul就已经自研推出了语音生成、语音识别、语音对话、音乐生成等多个语音大模型,实现了真实音色生成、多语言切换、语音DIY、多情感拟真人实时对话等功能,并将其应用于“AI苟蛋”和“狼人魅影”中。这些功能不仅丰富了用户的社交体验,也为Soul的技术进步提供了实践基础。
此次升级的端到端全双工语音通话大模型,是对传统级联方案语音交互体系的一次重要改进。因为在传统的语音处理流程中,语音交互常常要经过语音识别、自然语言理解、语音生成等多个环节,易产生信息损耗和交互延迟。而Soul的端到端语音大模型则直接从语音输入到语音输出,减少了中间步骤,最大限度地保留了信息的完整性,并大大降低了延迟。
在实际人机语音交互场景中,端对端语音通话大模型的延迟低于行业普遍水平,为用户所带来了更加顺畅的互动体验。此外,该模型还能识别并表达复杂的情感,使得AI能够在语音通话中准确捕捉用户的情绪变化,并给予适当的反馈。不论是模拟物理世界的背景音效,还是支持多种风格的语言切换,端对端语音通话大模型都能够灵活应对,为用户创造出更接近现实的交流体验。
此次Soul App创始人张璐团队推出端到端全双工语音通话大模型,逐步提升了人机互动的流畅性与自然性。通过简化语音交互流程,优化情感表达能力,Soul为用户所带来了更真实、生动的社交体验。这一技术进步不仅扩展了语音技术的应用场景,也为AI在社交产品中的应用提供了更多实践机会。
上一篇:Soul App创始人张璐团队升级端到端语音大模型,带来流畅人机交互体验
下一篇:被AI改变的十一游:用豆包、文心一言做攻略,在Soul App上找搭子
① 凡本网标注明确来源:咸宁网的全部作品,版权均属于咸宁网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并标注明确来源:咸宁网。违反上述声明者,本网将追究其有关规定法律责任。
② 凡本网标注明确来源:xxx(非咸宁网)的作品,均转载自其它媒体,转载目的是传递更加多信息,并不代表本网赞同其观点和对其真实性负责。
咸宁日报香城都市报咸宁网咸宁政府网联系我们广告服务法律顾问税务登记证授权声明银行账号湖北咸宁市情简介
主管: 咸宁市委宣传部咸宁市人民政府新闻办公室主办:咸宁日报社承办:咸宁日报网络传媒中心
未经咸宁新闻网书面特别授权,请勿转载或建立镜像,违者依法必究邮箱: 网站技术服务