阿里通义实验室语音生成大模型CosyVoice升级2.0版本-智汇AI

   日期:2024-12-27    作者:liujiangzhao 移动:http://mip.riyuangf.com/mobile/quote/70524.html

阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流式语音合成,首包合成延迟可达到150ms,显著提升了语音合成的响应速度。

在发音准确性方面,CosyVoice2.0相比于前一版本错误率下降了30%至50%,在Seed-TTS测试集的hard测试集上取得了当前的字错误率,尤其在合成绕口令、多音字、生僻字方面表现出色。此外,2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性,特别是跨语言语音合成能力相较于1.0版本有了明显提升。

CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强,M【智汇AI的AI快讯】OS评测分从5.4提升至5.53,接近某商业化语音合成大模型的评分。同时,2.0版本支持更多细粒度的情感控制和方言口音控制,为用户提供了更丰富的语言选择,包括粤语、四川话、郑州话、天津话和长沙话等主要方言,以及角色扮演功能,如模仿机器人、小猪佩奇的风格讲话等。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号