分享好友 最新动态首页 最新动态分类 切换频道
Fish Speech V1.5:长文本0错误实时复刻,可自定义音色与语速,快来体验
2024-12-26 22:17

始智AI wisemodel.cn开源社区

Fish Speech V1.5:长文本0错误实时复刻,可自定义音色与语速,快来体验

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

Fish Audio 团队发布了最新的 Fish Speech V1.5 模型,该模型使用超过 100 万小时的多语言数据进行训练,可支持高质量的即时语音克隆,在准确性、稳定性、跨语言能力以及情感表达等方面实现了全面升级,同时新增支持五种语言,进一步扩大了应用范围。Fish Speech V1.5 模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/Fish_Audio/Fish-Speech-V1.5

01.

八大特性

F ish Speech是一个全新的文本到语音( TTS )解决方案 ,采用了当下流行的深 度学习技术,如 Transformer、VITS、VQVAE 和 GPT 等。Fish Speech V1.5主要改进包括更精炼的数据处理流水线,增强了训练方法,提高了模型输出的稳定性以及更高级的情感表达能力。


  • 零样本和少样本语音合成:提供 10 到 30 秒声音样本,即可生成高质量语音合成结果,模仿效果出色。

  • 多语言与跨语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等,可直接将想说的话复制粘贴到输入框进行转换,方便与世界各地朋友交流。

  • 无音素依赖:区别于传统语音合成模型依赖音素,它泛化能力强,能处理任何语言脚本文本。

  • 高度准确:处理 5 分钟英文文章,错误率低至 2%。

  • 快速:在英伟达RTX4060笔记本电脑上,实时系数约为1:5,在英伟达RTX4090 上实时系数达 1:15。

  • WebUI 推理:具有易于使用的、基于Gradio的网络用户界面,与Chrome、Firefox、Edge等浏览器兼容。

  • GUI 推理:提供PyQt6图形界面,可与API服务器无缝配合。支持 Linux、Windows和macOS。

  • 易于部署:可轻松设置推理服务器,原生支持Linux、Windows和MacOS,将速度损失降至最低。

02.

技术与应用

Fish Speech V1.5在技术架构方面,实现了DualAR架构,采用双自回归Transformer设计。其中,主Transformer以21Hz运行,以实现高效的延迟管理;次级Transformer将潜在状态转换为声学特征。

这种方法在计算效率和输出质量方面都明显优于传统的级联方法。在准确度方面,Fish Speech V1.5的的英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%。

在性能方面,官方提供的数据显示,Fish Speech 1.5在TTS Arena上的ELO分数领先多个模型。

Fish Speech v1.5是一款功能强大且易于使用的文字转语音工具,特别适合需要个性化语音输出的用户。无论是个人项目、教育还是内容创作,它都能提供高质量的语音合 成服务。

在教育方面,可以为学习材料配音,帮助学生更好地理解内容。在内容创作方面,可以为视频、播客、游戏等创作提供语音支持。在辅助技术角度,为有视力障碍或学习障 碍的用户提供语音读出功能。

03.

镜像使用

在wisemodel上提供了直接使用的镜像,点击Fish-Speech-V1.5 (鲸音响鸣-V1.5)模型详情 页-“训练或微调”按钮,创建一个开发环境,选择“Fish-Audio-V1.5”的镜像,使用1张A5000的配置,然后直接点击下一步:

然后确认一下计费方式,如果是简单体验可以选择按量计费的模型,如果需要使用更长的时间,也可以选择包周或包月的模式,相比于按量有一些折扣。确定计费方式之后,可以直接点击提交订单:

等待1分钟左右,开发环境就启动成功,进入运行中的状态。

通过Notebook登录到开发环境上,然后启动服务,

服务启动成功之后,在开发环境申请一个服务端口和访问域名。

将申请好的域名复制到浏览器里就可以开始在线体验了。

04.

在线体验

W isemodel社区支持直接通过模型镜像创建在线体验,在 Fish-Speech-V1.5 (鲸音响鸣-V1.5)模型详情 页 点击“在线部署-部署在线体验”按钮。

然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。

提交订单之后,应用已经进入启动中的状态,正常情况下大概等待5分钟左右就正常运营,进行在线体验了。

----- END -----

wisemodel相关:

系统升级:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

最新文章
学习Python需要的数学基础有哪些?CAIE人工认证对其有帮助吗?
学习Python需要一定的数学基础,尤其是在涉及数据分析、机器学习和深度学习等领域时。根据不同的学习目标和应用场景,所需的具体数学知识有所不同。Python学习所需的数学基础基本数学知识:对于初级Python程序员而言,初中数学知识足以应对
SEO高效策略全解,快速提升网站排名秘籍
SEO快速提升网站排名策略解析:优化关键词布局,提高相关性;加强网站内容质量,确保原创;提升网站加载速度,优化用户体验;积极进行外部链接建设,提高网站权威性。掌握这些高效策略,助力网站排名快速提升。SEO,即搜索引擎优化,是一项
公司产品百度如何推广
1登录百度后台您需要访问百度竞价排名的官方网站并登录后台。可以将登录页面添加到收藏夹,以便快速访问;或者直接输入域名进入百度后台登陆页面。 选择搜索推广在进入百度竞价排名首页后,您会看到“投放概况”“搜索推广”“网络联盟营销
规则引擎 Easy rule 使用总结
    easy Rule就是一个轻量级的规则引擎,它可以直接注入spring bean类,可以查看github上对它的介绍:GitHub - j-easy/easy-rules: The simple, stupid rules engine for Java       easy rules是一个简单而强大
怎样发视频跳转链接到抖音?
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客》》点此生成链接怎样发视频跳转链接到抖音 将自己或第三方的联系方式植
甄嬛传变枪战片?媒体:管住AI魔改视频,让科技向善落地有声
  《甄嬛传》变身“枪战片”,《红楼梦》改成“武打戏”,孙悟空骑着摩托车扬长而去……据12月10日新华社报道,广电总局网络视听司日前发布《管理提示(AI魔改)》,指出近期AI“魔改”视频以假乱真、“魔改”经典现象频发,要求各相关省
韩漫漫画登录页面免费漫画看秋蝉,带你领略精彩漫画世界
秋蝉鸣泣之时,是一部充满悬疑、惊悚与奇幻元素的日本漫画作品。该漫画以其独特的剧情和精美的画面受到了众多读者的喜爱。今天,我将为大家介绍如何免费观看这部精彩的漫画。我们需要找到一个可靠的漫画网站。在这里,我推荐大家使用一些知
康奈尔大学发布-DDI-GPT:使用知识图谱增强的大型语言模型对药物间相互作用进行可解释的预测
大家好,今天分享这篇名为 "DDI-GPT: Explainable Prediction of Drug-Drug Interactions using Large Language Models enhanced with Knowledge Graphs"的文章,该文章于昨天仅作为预印本供研究者参考,目前尚
手机暴风影音TV版全部平台版本
拥有丰富的高清视频、*3D省电技术,看视频*贴心!特色卖点:聚合超多好看视频,你想看的这里都有全新会员体系,各种大片随心看还没广告3D、左眼、右耳、魔镜、字幕全支持,家庭影院也不能更好啦追剧功能,从此以后精彩节目不再错过全新解码
相关文章
推荐文章
发表评论
0评