基于ChatGPT的数据权益保护问题研究

基于ChatGPT的数据权益保护问题研究

2024-12-26 11:44

　　ChatGPT是由美国公司OpenAI基于一种GPT—3.5架构开发的大型语言模型，能够生成各种不同的文本类型，可以针对对话场景进行特别优化，根据上下文自动生成跟人类一样的对话文本。

　　OpenAI在公司官网对ChatGPT产生方法进行介绍时说，该模型是使用人类反馈强化学习训练而来，方法与InstructGPT（OpenAI开发的一种“指令生成预训练”语言模型）一致，但在数据收集设置上略有不同。我们通过监督微调的方法训练出一个初始模型：人类人工智能训练师分别扮演用户与AI助手的角色。我们允许AI训练师为模型编写建议，帮助他们撰写回复；我们把新的对话数据集与InstructGPT数据集混合，并转化为对话格式。为了创建强化学习的奖励模型进行收集对比数据，包括两个或多个按质量排序的模型反应。同时，为了更好收集此类数据，使用AI训练师与聊天机器人的对话，随机选择一个模型编写信息，抽样几个替代信息，并让AI训练师对它们进行排序。继而，我们利用这些奖励模型，通过策略优化方式进行微调。

　　由此可知，ChatGPT工作的原理及技术架构包括四方面内容：第一，生成基于GPT的模型（AI在海量数据下学习基于前后文生成后续文本能力），由于GPT模型会产生多个不同的输出结果，例如：告诉GPT“世界上最大的平原是____”，可以给出“绿色的”“是无边无尽的”“亚马孙平原”等多个合理答案。第二，引导方向，并监督微调初始模型，通过前述问题，不难看出“亚马孙平原”是最符合人类期望的答案，因此，开发者通过人工给出一些问题答案，进而训练AI学习，从而形成一个初始的ChatGPT模型。第三，提升能力的奖励模型。在两步基础上，如何提升初始模型处理能力？研究人员会让GPT对特定问题给出多个答案，由人类进行好坏排序，基于比较数据生成符合人类标准的模型。第四，AI指导AI，强化学习，由于以上三步形成较为成熟AI，因此使用AI指导AI进行强化学习，不断训练迭代，形成完整ChatGPT模型。

　　ChatGPT具有广泛的知识储备和强大的语言理解能力，让翻译、生成文案、分析文本等工作变得简单，极大提升了工作效率。它还具有较强的自我学习及推理能力，也让应用场景变得多样，不仅能够从事文字工作，还能够从事AI建模、语音交流、图像生成等复杂工作。但它也存在一定的缺陷及限制，比如逻辑不透明，ChatGPT训练数据来自人类历史数据，可能充满了各式各样的偏见；回复滞后性及有限性，ChatGPT根据预设数据集进行数据分析及整合，它的数据来源具有滞后性及有限性，这使得本身很难获取最新数据信息。

　　ChatGPT应用可能产生的安全风险

　　数据安全风险。ChatGPT是以对话方式进行交互，使用机器学习技术根据接收到的“输入内容”生成“类似人类的文本”。它的技术优势主要来源于先进的算法及海量的数据，但这也引起了人们关于数据安全方面的担忧。我国数据安全法明确规定，维护数据安全，应当坚持总体国家安全观，建立健全数据安全治理体系，提高数据安全保障能力。ChatGPT是通过GPT模型进行不断的监督微调及强化学习进行数据分析，它本身的算法技术及预设数据集均来自域外，主要以西方价值观为导向，可能存在着意识形态偏差。ChatGPT还可以进行深度的自主学习，也无法排除存在对国家相关信息数据深度分析及发掘的可能。因此，ChatGPT技术的应用可能会给国家数据安全带来潜在风险，从而影响国家数据权益保护。此外，ChatGPT通过连接大量的语料库来训练模型，其中数据不仅来源于预设的数据集，还包括用户输入的相关数据信息。用户一旦使用ChatGPT输入相关数据，它会成为机器智能学习的一部分，从而对用户的个人信息、秘密信息、商业秘密和其他秘密情报形成安全风险。

　　网络安全风险。一是基于虚假信息产生的网络安全风险。一方面，ChatGPT依赖海量数据信息进行深度学习，数据主要来源于现有互联网公开文本数据。这些数据有真实准确来源的信息，也有虚假信息。ChatGPT在监督微调、奖励模式、强化学习过程中若以虚假信息作为处理分析对象，进而生成文本也会存在虚假信息。另一方面，ChatGPT具有强大的自主性特质，即便处理数据均来自真实、准确信息，亦不能排除基于ChatGPT通过算法进行数据整合生成虚假信息的可能。二是基于网络攻击产生的网络安全风险。ChatGPT的出现，意味着“强人工智能时代”的来临，但与之相关的网络安全问题也越来越受到关注。首先，从生成内容角度看，ChatGPT为网络犯罪分子提供更便捷的网络攻击武器，比如利用ChatGPT的编写功能，非常快速生成钓鱼电子邮件，骗取他人信息。其次，ChatGPT降低了恶意软件的开发门槛。借助ChatGPT，黑客甚至不需要编码就可以生成一个恶意软件，这极大地降低了黑客的技术能力门槛，从一定程度上加速恶意软件的开发，提高漏洞利用的可能性和速度。最后，ChatGPT提高了网络防御难度。借助ChatGPT，黑客能够开发出安全人员极难识别的恶意软件，提高网络攻击的有效性。

　　知识产权侵权风险。使用ChatGPT也面临着较为严重的版权风险。从ChatGPT生成框架来看，ChatGPT运用大量不同的数据集训练形成大型语言模型，它的数据集可能来自受著作权保护的材料，若没有经过授权，则可能存在侵犯他人作品复制权的问题。

　　从ChatGPT生成内容来看，ChatGPT具有强大的语言重组和整理能力，当用户输入特定命令时，若ChatGPT生成的内容主旨与他人在先作品独创性表达存在部分或完全一致时，基于ChatGPT通过计算机传播，且用户可以在自己选定时间及地点获取内容，符合信息网络传播权构成要件，因此存在作品信息网络传播权侵权风险。此外，ChatGPT作为典型的语言模型，它的模型训练需要海量的文本数据集，若开发公司为训练ChatGPT引入特定作者的作品进行训练，在未经相关著作权人许可情况下，当用户输入特定命令时，ChatGPT生成的内容若具有一定独创性，且存在与在先作品的相似表达，即便其可能会构成演绎作品，但其生成内容也为侵权作品；若开发公司训练ChatGPT时，从未引入特定作者的作品，只是由于用户的特定问题使算法“预测”生成内容时刚好与在先作品相同，则不构成侵权。因此，如何规制ChatGPT带来的侵权风险，需要持续性的关注和思考。

　　ChatGPT等生成式人工智能的监管路径

　　随着人工智能的快速发展，以ChatGPT为代表的新技术将广泛应用于人们未来的生产生活。但ChatGPT等生成式人工智能也是一把“双刃剑”。一方面，它高度的智能性为生产生活带来了极大便利，提高了社会生产力，给社会各领域活动带来了颠覆性变革。另一方面，它的快速发展冲击现有规则，存在较多潜在风险。

　　鉴于目前ChatGPT技术应用尚未完全成熟，可能存在较大的数据安全风险，世界各国采用了不同的监管规范思路。以对数据与隐私保护较为严苛的欧盟为代表，对ChatGPT持续严监管。比如，意大利已于当地时间3月31日发布ChatGPT禁令，宣布将暂时封锁意大利境内访问ChatGPT的途径，并审查OpenAI在最近一次网络安全事件中收集的个人信息等问题。同时，欧盟计划出台全面人工智能法规《人工智能法案》，对ChatGPT等生成式AI设置专门监管部门。以引领科技创新为目标的美国对ChatGPT持宽松监管态势。5月4日，美国拜登政府宣布对“值得信赖的”人工智能增加投资，强调加强对ChatGPT在伦理道德方面的监管，拟研究和制定针对ChatGPT的监管政策和指南，以确保ChatGPT的发展和应用符合法律法规和伦理标准。

　　针对人工智能应用，我国今年4月发布《生成式人工智能服务管理办法（征求意见稿）》，主要规制生成式人工智能服务提供者的行为，为提供者设置较高的合规义务。方向上鼓励促进生成式人工智能技术和产品发展，管理上强化规范化、法治化，力求在保障合法合规的同时，为生成式人工智能未来的技术创新和推广应用保留一定政策空间。

　　此外，ChatGPT生成式人工智能服务提供者也应当积极利用自身技术的完善减少相关风险，比如，通过算法优化以及人为介入管控等方式提升信息过滤能力；对于用户输入内容，加强内容识别能力，对虚假或危险信息作出警示。对于用户隐私建立完善的保存机制并形成日志以便后续监督等。