26岁OpenAI举报人疑自杀，死前揭ChatGPT训练黑幕

26岁OpenAI举报人疑自杀，死前揭ChatGPT训练黑幕

2024-12-27 01:47

编辑：Aeneas 好困

【新智元导读】26岁的OpenAI吹哨人，在发出公开指控不到三个月，被发现死在自己的公寓中。法医认定，死因为自杀。那么，他在死前两个月发表的一篇博文中，都说了什么？

就在刚刚，消息曝出：OpenAI吹哨人，在家中离世。

曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。

如今，他却意外去世。

法医办公室认定，死因为自杀。警方也表示，「并未发现任何他杀证据」。

他在X上的最后一篇帖子，正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

吹哨人警告：OpenAI训练模型时违反原则

Suchir Balaji曾参与OpenAI参与开发ChatGPT及底层模型的过程。

今年10月发表的一篇博文中他指出，公司在使用新闻和其他网站的信息训练其AI模型时，违反了「合理使用」原则。

博文地址：https://suchir.net/fair_use.html

然而，就在公开指控OpenAI违反美国版权法三个月之后，他就离世了。

为什么11月底的事情12月中旬才爆出来，网友们也表示质疑

其实，自从2022年底公开发布ChatGPT以来，OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。

他们认为，OpenAI非法使用自己受版权保护的材料来训练AI模型，公司估值攀升至1500亿美元以上的果实，却自己独享。

今年10月23日，《纽约时报》发表了对Balaji的采访，他指出，OpenAI正在损害那些数据被利用的企业和创业者的利益。

「如果你认同我的观点，你就必须离开公司。这对整个互联网生态系统而言，都不是一个可持续的模式。」

一个理想主义者之死

Balaji在加州长大，十几岁时，他发现了一则关于DeepMind让AI自己玩Atari游戏的报道，心生向往。

高中毕业后的gap year，Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于UC伯克利，主修计算机科学。在大学期间，他相信AI能为社会带来巨大益处，比如治愈疾病、延缓衰老。在他看来，我们可以创造某种科学家，来解决这类问题。

然而，在加入OpenAI、担任两年研究员后，他的想法开始转变。

在那里，他被分配的任务是为GPT-4收集互联网数据，这个神经网络花了几个月的时间，分析了互联网上几乎所有英语文本。

Balaji认为，这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底，他在个人网站上发布一篇文章，论证了这一观点。

在准备取证前，纽约时报提到，至少12人（多为OpenAI的前任或现任员工）掌握着对案件有帮助的材料。
在过去一年中，OpenAI的估值已经翻了一倍，但新闻机构认为，该公司和微软抄袭和盗用了自己的文章，严重损害了它们的商业模式。
诉讼书指出——
微软和OpenAI轻易地攫取了记者、新闻工作者、评论员、编辑等为地方报纸作出贡献的劳动成果——完全无视这些为地方社区提供新闻的创作者和发布者的付出，更遑论他们的法律权利。

为什么OpenAI违反了「合理使用」法？Balaji在长篇博文中，列出了详尽的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义。

是否符合「合理使用」，应考虑的因素包括以下四条：

（1）使用的目的和性质，包括该使用是否具有商业性质或是否用于非营利教育目的；（2）受版权保护作品的性质；（3）所使用部分相对于整个受版权保护作品的数量和实质性；（4）该使用对受版权保护作品的潜在市场或价值的影响。

按（4）、（1）、（2）、（3）的顺序，Balaji做了详细论证。

由于ChatGPT训练集对市场价值的影响，会因数据来源而异，而且由于其训练集并未公开，这个问题无法直接回答。

不过，某些研究可以量化这个结果。

但签署了协议，数据就是「合理使用」吗？

总之，鉴于数据许可市场的存在，在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害，因为这剥夺了版权持有人的合法收入来源。

书评家可以在评论中引用某书的片段，虽然这可能会损害后者的市场价值，但仍被视为合理使用，这是因为，二者没有替代或竞争关系。

显然，在这个过程中，ChatGPT创造了与原始内容形成直接竞争的替代品。

考虑这一因素，可以有两种解释——

（1）模型的训练输入包含了受版权保护数据的完整副本，因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。
（2）模型的输出内容几乎不会直接复制受版权保护的数据，因此「使用量」可以视为接近零。这种观点支持「合理使用」。

哪一种更符合现实？

为此，作者采用信息论，对此进行了量化分析。

在信息论中，最基本的计量单位是比特，代表着一个是/否的二元选择。

至于H(X)——训练数据分布的真实信息熵——虽然计算困难但仍是可行的。

可以作出一个合理假设：H(Y) ≥ H(X)。

这个假设是有依据的，因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征，同样，过度拟合并且记忆训练数据的模型也是如此。

在极端情况下，就会导致「内容重复输出」的问题，即模型会以确定性的方式，输出训练数据中的片段。

即使在非确定性的输出中，训练数据的信息仍可能以某种程度被使用——这些信息可能被分散融入到整个输出内容中，而不是简单的直接复制。

从理论上讲，模型输出的信息熵并不需要低于原始数据的真实信息熵，但在实际开发中，模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

这主要是因为，熵值高的输出在采样过程中会包含更多随机性，容易导致内容缺乏连贯性或产生虚假信息，也就是「幻觉」。

如何降低信息熵？

在模型训练过程中，让模型多次接触同一数据样本是一种很常见的做法。

但如果重复次数过多，模型就会完整地记下这些数据样本，并在输出时简单地重复这些内容。

然而，在重复训练十次后，模型完全记住了《科利奥兰纳斯》剧本的开头部分，并在接收到提示后机械地重复这些内容。

在重复训练五次时，模型表现出一种介于简单重复和创造性生成之间的状态——输出内容中既有新创作的部分，也有记忆的内容。

ChatGPT产生低熵输出的主要原因在于，它采用了强化学习进行后训练——特别是基于人类反馈的强化学习（RLHF）。

RLHF倾向于降低模型的熵值，因为其主要目标之一是降低「幻觉」的发生率，而这种「幻觉」通常源于采样过程中的随机性。

理论上，一个熵值为零的模型可以完全避免「幻觉」，但这样的模型实际上就变成了训练数据集的简单检索工具，而非真正的生成模型。

例如，即使不了解ChatGPT的训练数据集，我们也会发现它讲的笑话全是靠记忆，因为这些内容几乎都是以确定性方式生成的。

这种分析方法虽然比较粗略，但它揭示了训练数据集中的版权内容如何影响模型输出。

但更重要的是，这种影响十分深远。即使是对因素（3）做出更宽松的解释，也难以支持「合理使用」的主张。

最终，Suchir Balaji得出结论：从这4个因素来看，它们几乎都不支持「ChatGPT在合理使用训练数据」。

10月23日，Balaji发出这篇博客。

一个月后，他死于自己的公寓。

参考资料：

https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile