分享好友 最新动态首页 最新动态分类 切换频道
26岁OpenAI举报人疑自杀,死前揭ChatGPT训练黑幕
2024-12-27 01:47

编辑:Aeneas 好困

26岁OpenAI举报人疑自杀,死前揭ChatGPT训练黑幕

【新智元导读】26岁的OpenAI吹哨人,在发出公开指控不到三个月,被发现死在自己的公寓中。法医认定,死因为自杀。那么,他在死前两个月发表的一篇博文中,都说了什么?

就在刚刚,消息曝出:OpenAI吹哨人,在家中离世。

曾在OpenAI工作四年,指控公司侵犯版权的Suchir Balaji,上月底在旧金山公寓中被发现死亡,年仅26岁。

如今,他却意外去世。

法医办公室认定,死因为自杀。警方也表示,「并未发现任何他杀证据」。

他在X上的最后一篇帖子,正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

吹哨人警告:OpenAI训练模型时违反原则


Suchir Balaji曾参与OpenAI参与开发ChatGPT及底层模型的过程。

今年10月发表的一篇博文中他指出,公司在使用新闻和其他网站的信息训练其AI模型时,违反了「合理使用」原则。

博文地址:https://suchir.net/fair_use.html

然而,就在公开指控OpenAI违反美国版权法三个月之后,他就离世了。

为什么11月底的事情12月中旬才爆出来,网友们也表示质疑

其实,自从2022年底公开发布ChatGPT以来,OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。

他们认为,OpenAI非法使用自己受版权保护的材料来训练AI模型,公司估值攀升至1500亿美元以上的果实,却自己独享。

今年10月23日,《纽约时报》发表了对Balaji的采访,他指出,OpenAI正在损害那些数据被利用的企业和创业者的利益。

「如果你认同我的观点,你就必须离开公司。这对整个互联网生态系统而言,都不是一个可持续的模式。」

一个理想主义者之死


Balaji在加州长大,十几岁时,他发现了一则关于DeepMind让AI自己玩Atari游戏的报道,心生向往。

高中毕业后的gap year,Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于UC伯克利,主修计算机科学。在大学期间,他相信AI能为社会带来巨大益处,比如治愈疾病、延缓衰老。在他看来,我们可以创造某种科学家,来解决这类问题。

然而,在加入OpenAI、担任两年研究员后,他的想法开始转变。

在那里,他被分配的任务是为GPT-4收集互联网数据,这个神经网络花了几个月的时间,分析了互联网上几乎所有英语文本。

Balaji认为,这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底,他在个人网站上发布一篇文章,论证了这一观点。

在准备取证前,纽约时报提到,至少12人(多为OpenAI的前任或现任员工)掌握着对案件有帮助的材料。

在过去一年中,OpenAI的估值已经翻了一倍,但新闻机构认为,该公司和微软抄袭和盗用了自己的文章,严重损害了它们的商业模式。

诉讼书指出——

微软和OpenAI轻易地攫取了记者、新闻工作者、评论员、编辑等为地方报纸作出贡献的劳动成果——完全无视这些为地方社区提供新闻的创作者和发布者的付出,更遑论他们的法律权利。

为什么OpenAI违反了「合理使用」法?Balaji在长篇博文中,列出了详尽的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义。

是否符合「合理使用」,应考虑的因素包括以下四条:

(1)使用的目的和性质,包括该使用是否具有商业性质或是否用于非营利教育目的;(2)受版权保护作品的性质;(3)所使用部分相对于整个受版权保护作品的数量和实质性;(4)该使用对受版权保护作品的潜在市场或价值的影响。

按(4)、(1)、(2)、(3)的顺序,Balaji做了详细论证。

由于ChatGPT训练集对市场价值的影响,会因数据来源而异,而且由于其训练集并未公开,这个问题无法直接回答。

不过,某些研究可以量化这个结果。

但签署了协议,数据就是「合理使用」吗?

总之,鉴于数据许可市场的存在,在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害,因为这剥夺了版权持有人的合法收入来源。

书评家可以在评论中引用某书的片段,虽然这可能会损害后者的市场价值,但仍被视为合理使用,这是因为,二者没有替代或竞争关系。

显然,在这个过程中,ChatGPT创造了与原始内容形成直接竞争的替代品。

考虑这一因素,可以有两种解释——

(1)模型的训练输入包含了受版权保护数据的完整副本,因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。

(2)模型的输出内容几乎不会直接复制受版权保护的数据,因此「使用量」可以视为接近零。这种观点支持「合理使用」。

哪一种更符合现实?

为此,作者采用信息论,对此进行了量化分析。

在信息论中,最基本的计量单位是比特,代表着一个是/否的二元选择。

至于H(X)——训练数据分布的真实信息熵——虽然计算困难但仍是可行的。

可以作出一个合理假设:H(Y) ≥ H(X)。

这个假设是有依据的,因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征,同样,过度拟合并且记忆训练数据的模型也是如此。

在极端情况下,就会导致「内容重复输出」的问题,即模型会以确定性的方式,输出训练数据中的片段。

即使在非确定性的输出中,训练数据的信息仍可能以某种程度被使用——这些信息可能被分散融入到整个输出内容中,而不是简单的直接复制。

从理论上讲,模型输出的信息熵并不需要低于原始数据的真实信息熵,但在实际开发中,模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

这主要是因为,熵值高的输出在采样过程中会包含更多随机性,容易导致内容缺乏连贯性或产生虚假信息,也就是「幻觉」。

如何降低信息熵?

在模型训练过程中,让模型多次接触同一数据样本是一种很常见的做法。

但如果重复次数过多,模型就会完整地记下这些数据样本,并在输出时简单地重复这些内容。

然而,在重复训练十次后,模型完全记住了《科利奥兰纳斯》剧本的开头部分,并在接收到提示后机械地重复这些内容。

在重复训练五次时,模型表现出一种介于简单重复和创造性生成之间的状态——输出内容中既有新创作的部分,也有记忆的内容。

ChatGPT产生低熵输出的主要原因在于,它采用了强化学习进行后训练——特别是基于人类反馈的强化学习(RLHF)。

RLHF倾向于降低模型的熵值,因为其主要目标之一是降低「幻觉」的发生率,而这种「幻觉」通常源于采样过程中的随机性。

理论上,一个熵值为零的模型可以完全避免「幻觉」,但这样的模型实际上就变成了训练数据集的简单检索工具,而非真正的生成模型。

例如,即使不了解ChatGPT的训练数据集,我们也会发现它讲的笑话全是靠记忆,因为这些内容几乎都是以确定性方式生成的。

这种分析方法虽然比较粗略,但它揭示了训练数据集中的版权内容如何影响模型输出。

但更重要的是,这种影响十分深远。即使是对因素(3)做出更宽松的解释,也难以支持「合理使用」的主张。

最终,Suchir Balaji得出结论:从这4个因素来看,它们几乎都不支持「ChatGPT在合理使用训练数据」。

10月23日,Balaji发出这篇博客。

一个月后,他死于自己的公寓。

参考资料:

https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile

最新文章
支付宝逾期多久会转第三方的解决方法是什么
在当今的互联网时代支付宝作为我国领先的第三方支付平台为广大客户提供了便捷的支付服务。在利用支付宝的期间逾期还款难题时有发生。本文将围绕支付宝逾期多久会转第三方的应对方法实施探讨帮助客户更好地熟悉逾期还款的后续影响及应对策略
苹果6肿么戴图片 截屏快捷键
苹果6sp怎么截屏快捷键1、快捷键截屏:同时按下iPhone6S Plus【电源键】和【Home键】即可。2、辅助触控截屏:进入系统设置菜单,然后依次点击【辅助功能】-【触控】-【辅助触控】,打开【辅助触控】功能;在【辅助触控中】将【轻点两下】设
萨宝智能锁快速售后24小时人工400-(问题解决) - 农业 - 百科知识-蓝心网
萨宝智能锁售后24小时维修服务热线:400-658-8618。萨宝智能锁全市各区售后服务点热线号码。☎:400-658-8618萨宝智能锁售后服务,秉承“诚信为本、客户至上”的服务态度和“以客户为中心”的服务指导思想,不仅真诚地为用户提供先进、高质
Red Giant Magic Bullet Suite For Mac v2024.0.1 红巨星调色插件
对于M1/M2/M3/M4芯片的电脑,如果软件官方未兼容 M1/M2/M3/M4,可以使用 Rosetta2 转译运行。在Apple Silicon ARM Mac电脑上安装Rosetta 2 运行intel应用苹果自家的M1和M2/M3/M4芯片都是ARM架构,所以M1和M2/M3/M4是完全通用的,未来就算有
罗定终于等到了!会“自动驾驶”的AI手机亮相天润广场!
笃行致远 遇见未来罗定荣耀销服一体店正式亮相啦!罗定天润广场 1F12月14日 | 试营业中12月15日 | 盛大开业新店开业,三重大礼等你来拿!One·荣耀简介·- HONOR -荣耀(HONOR),成立于2013年,荣耀是全球领先智能终端提供商,致力于构建
用AI生成超逼真美女写真:搜狐简单AI完全指南
在这个时代,科技的进步让我们很好地记录生活的点滴,而AI技术的崛起更是让每一个人都能成为创作者。你是否曾想过,一张栩栩如生的美女写真,可以只通过几次点击就能生成?让我们一起深入探讨一下AI生成美女写真背后的技术,以及如何使用这
抖音直播时没人气怎么办,如何提高直播间热度?
1、请求熟人亲朋好友、同事、同学、家人,你能够找到的人,都拉到你的直播间来。让他们来帮忙增加你直播间的基础人气。2、小号协助小号是我们能自己控制的直播间在线人数,可以避免观众进来后没人评论的尴尬。开启小号后可以在评论区留言增
从机器幻觉到智能幻觉
机器幻觉与智能幻觉主要是关于人工智能(AI)系统在处理信息和生成输出时,可能会产生的错误认知或“幻觉”现象。1. 机器幻觉在早期的计算机科学中,“机器幻觉”通常指的是计算机在进行数据处理时,出现了错误的输出或意外的结果。这类“
黑神话,悟空游戏帧数优化提升技巧详解
摘要:本文介绍了提升《黑神话:悟空》游戏帧数的方法。对于想要优化游戏体验的玩家来说,提高帧数是一个重要的目标。文章可能涵盖了调整游戏设置、升级硬件配置、关闭不必要的后台程序等多种方法,旨在帮助玩家减少画面卡顿,提升游戏流畅
谷歌推广效果好吗?为什么要选择谷歌推广?
谷歌推广效果好吗?全球90%流量来自谷歌,因此这个问题的答案是显而易见的。google流量是主线,不管你做批发还是零售,都要靠google。但是不管什么推广渠道还是需要推广方法到位才能起到一定的效果。 谷歌推广主要有两种模式:一种是Google
相关文章
推荐文章
Portainer--Docker的图形化管理工具
微信小程序必须是公司吗,复刻版正品数据_标准版453
《K》动漫周边(官网图+画集+图标)
python爬取网页图片并下载
妖精漫画 免费登录页面看漫画下载
在2023年怎么用Google Play?从零开始的谷歌商店购买教程「剁手...
买淘宝店铺注意事项,买淘宝店铺注意事项怎么写
Python实现微信自动回复+AI智能回复(完整代码)
VOCs在线监测系统 区域气相五参监测设备
VIVO整合营销传播案例:创新推动行业引领
发表评论
0评