分享好友 最新动态首页 最新动态分类 切换频道
OpenAI最新发布:只需15秒音频,Voice Engine即可帮助失语者“重获声音”
2024-12-26 11:28

今日凌晨,OpenAI 在官网分享了他们在 AI 语音合成方面的一些进展——公布了一个名为“语音引擎”(Voice Engine)的模型的小规模预览的初步见解和结果。

OpenAI最新发布:只需15秒音频,Voice Engine即可帮助失语者“重获声音”

据介绍,该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是,一个只有 15 秒样本的小型模型就能生成富有感情和逼真的声音。

早在 2022 年底,OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。

今天,通过一些实际案例,OpenAI 分享了一些 Voice Engine 的早期应用。

例如,使用 Voice Engine 帮助恢复一名因血管性脑肿瘤而失去流利语言能力的年轻患者的声音。

此外,Voice Engine 还可以被用来提供阅读帮助、翻译内容、为不会说话的人群提供支持等。

1)通过声音自然、富有感情的声音为非阅读者和儿童提供阅读帮助

这些声音代表了更广泛的说话者,而不是预设的声音。Age of Learning 是一家教育技术公司,该公司一直在使用 Voice Engine 生成预设的画外音(voice-over)内容。他们还利用 Voice Engine 和 GPT-4 创建实时、个性化的回应,与学生互动。

2)翻译视频和播客等内容

Voice Engine 可以让创作者和企业可以用自己的声音流利地向世界各地更多的人传播。据 OpenAI 介绍,HeyGen 是这方面的早期应用者之一。HeyGen 是一个人工智能视觉故事平台,通过使用 Voice Engine 进行视频翻译,将演讲者的声音翻译成多种语言,并覆盖全球受众。用于翻译时,Voice Engine 会保留原说话者的母语口音:例如,用法语说话者的音频样本生成英语,就会产生带有法语口音的语音。

3)为不会说话的人群提供支持

Voice Engine 可以为患有影响语言的疾病的人群提供治疗应用,为有学习需求的人群提供教育增强功能等。Livox 是一款人工智能替代性交流应用程序,为辅助性和替代性交流(AAC)设备提供支持,使残疾患者能够进行交流。Voice Engine 能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音,对于多语种用户,每种口语都能保持一致的语音。

此外,Voice Engine 还通过改善偏远地区的基本服务提供深入全球社区。例如,Dimagi 正在为社区卫生工作者开发工具,从而提供各种基本服务,如“为母乳喂养的母亲提供咨询”。为了帮助这些工作人员提高技能,Dimagi 使用 Voice Engine 和 GPT-4 以每位工作人员的主要语言(包括斯瓦希里语或更加非正式的语言)提供互动反馈。

OpenAI 表示,由于合成语音有可能被滥用,他们对更广泛的发布采取了谨慎和知情的态度,选择在此时预览但不广泛发布这项技术。

他们在与这些合作伙伴签订的条款中,要求获得原发言人的明确和知情同意,且不允许开发人员为个人用户创建自己的声音。这些合作伙伴还必须向受众明确披露,其听到的声音是人工智能生成的。

此外,OpenAI 还实施了一系列安全措施,包括水印以追踪 Voice Engine 生成的任何音频的来源,以及主动监控其使用情况。

OpenAI 表示,他们鼓励在未来加快开发和采用追踪视听内容来源的技术,让人们始终清楚自己是在与真人互动还是在与人工智能互动,并帮助公众了解人工智能技术的能力和局限性,包括人工智能欺骗性内容的可能性等。

参考资料:

最新文章
6款AI写作神器真的好用吗?实测告诉你真相!
写论文、赶稿、写文案,脑子乱成一锅粥,灵感全没了?别慌!就算没有“灵感之神”帮忙,也能写出好东西! 今天推荐几款被称为“论文神器”的AI写作工具,亲测了6款,看看能不能帮拖延症患
13个适用于WordPress的最佳帮助台插件(和5个免费插件)
您是否正在寻找可靠的WordPress帮助台插件? 及时解决与您的产品有关的问题将使客户和顾客满意。 在本文中,我将向您展示一些用于创建和运行服务台的最佳WordPress插件。 为什么需要服务台? 专业的服务台将帮助您快速&#
HTTPS站点排名比HTTP好,https是SEO不容忽略的因素之一
页面更新时间:2019-07-09阅读数:1796 如果说2017年还是SEO工作者对https的初步尝试,那么2019年,https已经是网站 SEO 必须要考虑的环节之一了。经常有用户咨询环度网信,https对网站排名有什么影响?跟SEO工作关联为密切的当属百度谷歌
2025人工智能行业发展前景分析与深度调查研究
随着科技的飞速发展,人工智能已经渗透到社会的各个领域,包括零售、工业、医疗、智慧城市等。这些行业对自动化、个性化和智能化解决方案的需求不断增加,推动了人工智能行业的快速增长。特别是在大数据时代,人工智能通过分析和利用海量数
AI视频转换
AI视频转换是一款很不错的视频转换软件,用户可以放心的在线进行转换,在这里一键进行智能的提取视频文件,在这里进行免费的制作,操作简单,是非常实用的手机软件,在这里用户可以轻松提取无水印的视频文件,在这里进行自由的剪辑,丰富的
24332期[完美诠释]排列五十位杀号杀码
332期完美诠释排列五十位杀号杀码:345 开:331期完美诠释排列五十位杀号杀码:148 开:71227[十位:2]330期完美诠释排列五十位杀号杀码:357 开:81136[十位:3]329期完美诠释排列五十位杀号杀码:018 开:14780[十位:8]328期完美诠释排列五十位杀号
18股获融资客大手笔净买入
代码简称12月16日涨跌幅(%)融资净买入额(万元)最新融资余额(万元)占流通市值比例(%)所属行业002281光迅科技7.8536808.04194049.375.25通信300502新易盛2.2732881.65292193.703.51通信600900长江电力1.9523357.781002255.871.43公用
AI怎么绘制齿轮图标? ai图标的设计方法
7、然后同时选中上面的两个锚点,使上面的角有1.45mm角半径的圆润,以此作为设置图标齿轮的波纹,如图:8、放这个波纹在圆环的顶部位置,同时选择波纹和圆环,找到【对齐】,选择【水平居中对齐】,让这个波纹图形相对圆环水平居中对齐,如
112Java基于SpringBoot的在线文献检索系统Vue IDEA Mybatis MySQL
所需该项目可以在最下面查看联系方式,为防止迷路可以收藏文章,以防后期找不到本系统为用户而设计制作在线文献检索系统,旨在实现在线文献检索智能化、现代化管理。本在线文献检索自动化系统的开发和研制的最终目的是将在线文
3D2014年周四连号走势图近1000期带连线
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
相关文章
推荐文章
发表评论
0评