导读 2025年1月20日,豆包App发布了最新的“端到端”语音大模型,并更新了实时语音通话功能。这一更新将语音识别、理解和生成整合到一个模型中,...
2025年1月20日,豆包App发布了最新的“端到端”语音大模型,并更新了实时语音通话功能。这一更新将语音识别、理解和生成整合到一个模型中,实现了更自然的语音交互。新的语音模型亮点在于能够复刻人类的表达形式和情感输出,对话流畅度和智商情商均有大幅提升。豆包还推出了“灵魂歌手”和“百变大咖”等语音通话模式,实现了唱歌和角色扮演功能,超越了GPT-4o的能力范围。
豆包通过采用端到端方案,在降低延时、提升自然度和情感表达方面取得了显著进步。这一变化使得AI语音交互的落地场景从教育、客服等领域扩展到情感陪伴、心理咨询、配音等更广阔的场景。在AI情感陪伴和角色扮演领域,豆包的创新已经展现出强大的市场潜力。通过提升语音层面的角色扮演、情绪感知和表达能力,豆包丰富了AI与人的交互形式,提升了沉浸感,进一步推动了技术向“拟人”方向发展。