分享好友 最新资讯首页 最新资讯分类 切换频道
速递|ChatGPT语音负责人创业AI语音,a16z首轮重注4000万美金
2024-12-27 17:07

Conneau 的 X/twitter 横幅(图片来源:X)

速递|ChatGPT语音负责人创业AI语音,a16z首轮重注4000万美金

据 TechCrunch 报道,在周一,Conneau 推出了 WaveForms AI,一家新的音频LLM公司,正在训练自己的基础模型,其创始人曾在 OpenAI 中负责 ChatGPT 语音。它的目标是在 2025 年发布与 OpenAI 和 Google 的产品竞争的 AI 音频产品。该初创公司在周一宣布,获得了由 Andreessen Horowitz 领投的 4000 万美元种子资金。

Alexis Conneau 对电影《她》思考了很多。过去几年里,他一直痴迷于试图将电影中虚构的语音技术萨曼莎变为现实。

通过 ChatGPT 的高级语音模式,Conneau 在 OpenAI 开始的一个项目,曾在 Meta 做过类似工作后,他最后算是做到了。该 AI 系统本地处理语音,并像人类一样进行对话。

现在,他有了一家新的初创公司,WaveForms AI,正在尝试构建更好的东西。

Conneau 花了很多时间思考如何避免电影中展示的反乌托邦,他在接受 TechCrunch 采访时说道。“她”是一部关于人们与人工智能系统而非其他人类发展亲密关系的科幻电影。

“这部电影是反乌托邦,对吧?这不是我们想要的未来,”Conneau 说。“我们想要带来那种技术——现在存在并将会存在的——我们想要把它用于好事。我们想要做的正是与电影中那家公司完全相反的事情。”

构建技术,减去随之而来的反乌托邦,似乎是一个矛盾。但 Conneau 打算无论如何都要构建它,他相信他的新人工智能初创公司将帮助人们“用耳朵感受 AGI”。

Conneau 说,Marc Andreessen 曾写道人工智能应该成为人类生活的每个方面的一部分,他对 Conneau 的努力表现出了个人兴趣。

值得注意的是,Conneau 对电影《 Her 》的痴迷可能曾让 OpenAI 陷入麻烦。今年早些时候,斯嘉丽·约翰逊向 Sam Altman 的初创公司发出了法律威胁,最终迫使 OpenAI 删除了一个与她在电影中角色非常相似的 ChatGPT 语音。OpenAI 否认曾试图复制她的声音。

但不可否认这部电影对 Conneau 的影响有多大。《 Her 》在 2013 年发布时显然是科幻电影——那时,苹果的 Siri 还很新,功能非常有限。但今天,这项技术感觉触手可及。

像 Character.AI 这样的 AI 伴侣平台每周吸引数百万用户,他们只想与其聊天机器人交谈。这个领域正在成为生成性 AI 的一个热门应用案例——尽管偶尔会出现悲惨和不安的结果。你可以想象,一个整天与聊天机器人对话的人会多么渴望有机会与它交谈,尤其是使用像 ChatGPT 的高级语音模式这样令人信服的技术。

WaveForms AI 的首席执行官对人工智能陪伴领域持谨慎态度,这并不是他新公司的核心。他认为人们会以新的方式使用 WaveForms 的产品——例如在车里与人工智能交谈 20 分钟以了解某些事情——但 Conneau 表示他希望公司能更“横向发展”。

“[WaveForms AI] 可以成为那个激励你的老师,你知道,也许是你生活中不会有的那个老师,至少是在你的现实生活中,”首席执行官说。

在未来,他相信与生成式人工智能交谈将成为与各种技术互动的更常见方式。这可能包括与您的汽车交谈,以及与您的计算机交谈。WaveForms 旨在提供能够促进这一切的“情感智能”人工智能。

“我不相信人机互动会取代人际互动的未来,”Conneau 说。“如果有什么的话,它将是互补的。”

他说人工智能可以从社交媒体的错误中学习。例如,他认为人工智能不应该以“在平台上花费的时间”作为优化目标,这是社交应用程序常用的成功指标,可能会促进不健康的习惯,比如无休止地滚动信息。更广泛地说,他希望确保 WaveForms 的人工智能与人类的最佳利益保持一致,并称这为“你能做的最重要的工作。”

Conneau 表示,OpenAI 为他的项目“高级语音模式”所起的名字并没有真正体现出这项技术与 ChatGPT 常规语音模式的不同之处。

旧的语音模式实际上只是将你的声音转换为文本,经过 GPT-4 处理,然后再将文本转换回语音。这是一个有些拼凑的解决方案。然而,Conneau 表示,使用高级语音模式,GPT-4o 实际上是将你的声音音频分解为标记(显然,每秒音频大约等于三个标记),并直接通过一个音频特定的变换模型处理这些标记。他解释说,这就是高级语音模式能够实现如此低延迟的原因。

在谈论人工智能音频模型时,一个常被提及的说法是它们“理解情感”。就像基于大量文本文件中发现的模式的文本 LLMs,音频 LLMs 也对人类说话的音频片段做同样的事情。人类将这些片段标记为“悲伤”或“兴奋”,以便人工智能模型在听到你说这些时识别出类似的声音模式,甚至以自己的情感语调作出回应。因此,它们并不是“理解情感”,而是系统地识别出人类与这些情感相关联的音频特征。

让人工智能更具人情味,而不是更聪明

Conneau 正在押注,今天的生成性人工智能不需要比 GPT-4o 智能得多就能创造更好的产品。WaveForms 并不是像 OpenAI 在 o1 中那样提高这些模型的基础智能,而是简单地试图让人工智能更好地进行对话。

“会有一群人[使用生成性人工智能],他们会选择对自己来说最愉快的互动方式,”Conneau 说。

这就是为什么这家初创公司有信心开发自己的基础模型——理想情况下,开发更小的模型,这样运行成本更低,速度更快。考虑到最近的证据,旧的人工智能扩展法则正在放缓。

Conneau 说,他在 OpenAI 的前同事 Ilya Sutskever 经常和他谈论尝试“感受 AGI”——本质上是用直觉来评估我们是否达到了超智能 AI。WaveForms 的首席执行官相信,实现 AGI 将更多依赖于一种感觉,而不是达到某种基准,而音频 LLMs 将是这种感觉的关键。

“我认为当你能够与 AGI 交谈时,当你能听到 AGI 时,当你能真正与 Transformer 本身交谈时,你会更能感受到它”Conneau 说,重复了他在晚餐时对 Sutskever 所说的话。

但是,随着初创公司使人工智能的对话能力更强,他们显然也有责任去弄清楚如何确保人们不会上瘾。然而,a16z 合伙人 Martin Casado 表示,如果人们更频繁地与人工智能交谈,这不一定是坏事。

最新文章
用AI图像生成工具,轻松打造你的专属美女写真!
步骤1:登录搜狐简单AI小程序在微信中搜索“搜狐简单AI”,点击进入小程序。只需简单的几步登录,你就可以开始创作你的作品了。
程序员节带你玩转图片Exif信息获取之JavaScript
1024是2的十次方,二进制计数的基本计量单位之一。1G=1024M,而1G与1级谐音,也有一级棒的意思。程序员就像是一个个1024,以最
应届生还没找到工作的看过来!厦门事业单位招聘多人!报名截止这个月啦!!!
招聘速看- Key Messages -招聘单位:四川大学华西厦门医院(研究院)招聘人数:若干人截止时间:2024年12月31日事业单位招聘四川
苹果刷机助手最新版,功能全面,操作简便一键上手
摘要:苹果刷机助手最新版是一款功能全面、操作简便的软件,旨在为用户提供便捷、高效的刷机体验。该软件具备丰富的功能,包括快
穿山甲短剧广告联盟APP平台软件开发(现成案例)
穿山甲短剧广告联盟APP平台软件开发流程讲解在当今的数字时代,移动应用已成为人们日常生活中bukehuoque的一部分。对于企业而言
迷你TXT小说阅读器 2.8
迷你TXT小说阅读器是一款不错的txt格式电子书阅读器。迷你TXT小说阅读器功能简介:  1、快速打开TXT大文件(5M以上);  2、
在Word中如何快速粘贴不同的内容
在我们使用word软件编辑文档的时候,有时由于特殊需要经常会遇到这样的情况——在同一篇文章中经常需要多个不同的短语。例如在同
拼在2024——热搜里的乌鲁木齐年度关键词 | “天山号”的丝路故事
  年末岁尾,沿着时间的坐标回望,乌鲁木齐在拼搏奋进的路上走过2024。  如果用一个字给2024年的乌鲁木齐画像,相信很多人会
网站的seo方案
网站的SEO方案应包括以下关键步骤:进行关键词研究,确定网站需要优化的核心关键词。优化网站结构,确保网站导航清晰,页面链接
程序员提升自我修养的具体方法
程序员具体如何达成“较高的修养”,每个人各有自己的办法,我无法说到很细,就和如何提高做人修养一样,一句两句话是说不清楚的