AIGC(AI Generated Content)是指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。随着人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,彻底拉开了智能创作时代的序幕。
在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。
与之前的PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。按照模态区分,AIGC又可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中跨模态生成值得重点关注。
自然语言处理(NLP)赋予了AI理解和生成能力,大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG),ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5系列中的模型进行微调产生的聊天机器人模型,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。
自然语言处理(NLP)发展历程:
AIGC发展可分为三阶段,早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段 (本世纪10年代中期至今)。
AIGC伴随着算法、算力共同发展,相互促进:
由于技术限制AIGC仅限于小范围实验与应用,1957年出现首支电脑创作的音乐作品,弦乐四重奏《依利亚克组曲(IlliacSuite)》,80年代末至90年代中由于高成本及难以商业化,因此资本投入有限导致AIGC无较多较大成绩。
AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时GPU,CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《IThe Road》(《在路上》)问世,2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(DeepNeural Network,DNN)自动将英文讲话内容通过语音识别等技术生成中文。
2014年深度学习算法“生成式对抗网络”(GenerativeAdversarial Network,GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。我国AIGC市场在2022年底引起较大关注,2023年开年企业端跃跃欲试。虽然行业仍处于起步阶段,距离大规模证明和体系化发展仍有距离,但从资本的加码到应用场景的探索,距离的缝隙有望逐步填补,同时,“模块分拆+个性化推荐”的“泛AIGC”形式有望持续发展。
2022年9月的AI绘画作品《太空歌剧院》获得美国科罗拉多州博览会的艺术比赛的第一名,当时有人预测若未来五年有10%-30%的图片在AI的帮助下诞生,那么AI绘画则将创造超过600亿元的市场空间,若考虑到下一代互联网对内容需求的迅速提升,则可能创造更大的市场规模。随后OpenAI的ChatGPT一问世就多次刷新之前APP注册用户数量突破的纪录,业内预测带动的市场规模将破万亿。
任何优秀的科研成果都需要最终落地部署才能产生实际意义和价值,算法模型也不例外。在AIGC产业链的下游,可以将相关应用拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理。
文本处理目前,文本处理是AIGC相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。
音频处理此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。
图片处理图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。
视频处理随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道,也是技术难度*的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。
AIGC+资讯行业在信息化时代,社会中充斥着各种资讯,同时这些资讯也有高标准、需求大、时效强等特点。自2014年起,AIGC已开始用于新闻资讯领域,因此资讯行业是AIGC商业化相对成熟的赛道。
AIGC+电商行业自网络电商出现以来,社会的很多方面都被改变了,电商企业既是网络时代的受益者,也在推动社会发展进程中扮演关键角色。自十年前网络直播出现,带动带货模式变革以来,各大企业都在或多或少的面临转型问题。在数字世界和物理世界快速融合的当下,AIGC走在时代前沿,可以赋能电商行业的多个领域,可能带来新一轮的行业变革。
AIGC+影视行业随着虚拟技术的逐步到来,对影视内容的需求也在爆发式增长。为了满足观众日益刁钻的口味和挑剔的眼光,影视行业正全力提高产量,迭代技术,导致整个行业的工业化程度逐渐提高,同时变得精细且复杂,同时人的局限性也逐渐凸显。AI的应用无疑可以降本增效,让行业回归本真。
AIGC+教育行业技术的飞速发展也将为教育行业带来颠覆,但是相比其他行业的快速发展,AI在教育中的落地部署似乎也慢了半拍。这其实是由教育行业本身的性质导致的,它的参与者众多,时间跨度很大,个体的差异性也很大,这让解决边界清晰、定义明确的AI难以适应。另外教育更注重人与人的互动和联结,也没有统一的理论模型,这都为相关AI的开发训练和落地部署增加了难度。但AI在教育行业绝非毫无用处,以技术手段推动行业进步也并非痴人说梦。
AIGC+医疗行业对医患双方而言,AIGC的应用与推广都是福音,比如AI预问诊的应用。虽然病人与病情千变万化,但总是有重复的地方,因此在预问诊阶段,AI就可以先了解患者的既往情况,让医生的诊断更有针对性,既缓解了医生的工作压力,也更好的服务了患者,医院内病人扎堆排队的现象也得以分流,可以说是一举三得。2021年,复旦大学附属眼耳鼻喉科医院与腾讯医疗健康签署合作协议,全面打造数字化医院新标杆、新范式,深入推进医院数字化转型,在预问诊等业务上快速落地部署。
对于传统医学的难点:心理疾病领域,AI同样可以参与其中。相较于过去的与人对话,AIGC聊天机器人只是个软件程序,用户不必担心隐私被泄露,况且还可以预置海量数据或知识模型,可以在更新迭代中保持冷静与中立。成立于2021年的聆心智能就是这方面的代表,基于生成式大模型开发的情绪疗愈机器人Emohaa,可以构建以生成对话为核心的交互式数字诊疗方案,通过对话与患者共情,及时提供情绪支持与心理疏导,促进患者心理健康。
AIGC+金融行业金融业天然与数据和信息密切相关,各类公司都要从繁复的市场上搜集信息,并加以利用,创造价值。基于这样的现状,金融行业的信息化一直走在其他行业之前,具备数据质量好、维度全、场景多等特点,因此也成为了AI最早落地的商业化场景之一。
大模型的广泛应用AI发展至今已走过多次寒冬与春天,每次交织都与AI的“通用化”与“专业化”分歧息息相关,可以说“通用化”代表着人类对未来的畅想,“专业化”则能带来更好的落地部署形式,但不论哪种都经常遇见这样那样的瓶颈。
21世纪的前二十年,是“通用化”大模型提出并获得发展的时代,简单说来它是通过“预训练大模型+下游任务微调”的方式,先让模型在大量标记与未标记的数据中学习知识,在将微调后的模型迁移到其他场景中,进而极大的扩展了模型通用能力。现在随着模型规模的增长也让大模型的能力水涨船高,比如GPT-3就包含高达1750亿的参数量。
大模型之“大”,除了参数规模庞大,数据量同样不能小视。过去有人说“人工智能就是大量人工才能换来的智能”,这是因为当时的机器学习依赖数据标注,一旦转换场景就需要重新标注。现在的机器学习多采用监督与无监督学习相结合的方式,例如“无监督训练,监督微调”。此外也利用互联网上的PGC,UGC进行训练,以获得更丰富的数据与更自然的表达。
不论模型还是数据,大模型都为AIGC赋予了充分的想象空间,随着时代的发展,它也许在未来能获得更多应用场景。
全新的仿人模式在AI产业刚起步时,一种非常简单的思路是让机器模仿人的学习方式,这种模式一直都是AI算法的重要思路来源,因此AI也经历了从推理到知识再到学习的变化。从起初的微观,机械性模仿,到现在宏观的认知模式借鉴,技术哲学也在随着时代而发展。
在AI发展早期阶段,三种流派中的“符号主义”占据主导地位,这派观点简而言之就是“人类的一切智能源于某种逻辑规则”。虽然当时它的确取得了一定成绩但这种观点缺陷明显,最易于理解的莫过于人类的很多智力行为都没有逻辑可言,因此这一流派很快被淘汰,由从更高的抽象层次定义AI的“联结主义”取而代之。这种观点在发展初期遇到了诸多障碍,现在的形式也与当初的出发点相去甚远,但AI神经网络的蓬勃发展也在一定程度上验证了这种高度抽象化模式的可行。
从AI开拓到应用,从模仿人类的学习过程到模仿人类的认知方式,AI的发展也逐渐变得宏观,随着未来科技的发展,AI还会迎来飞跃式发展,为AIGC带来更多可能性。
技术伦理成为重点关注领域AI的发展堪称具有革命性,但本质上来说,任何科技都有伦理问题,并且逐渐受到关注。很多AIGC从学术研究转向产业研究的*步就是探索如何从技术角度解决可能的技术伦理问题。
比较典型的是AI生成内容的危险性,比如2016年微软发布的Tay,它可以通过推特学习社会信息并与他人互动。但是在仅仅一天后,Tay就开始说出一些种族歧视之类的偏激言论,因此微软暂时关闭了Tay的账号。但这些言论明显是和网络上一些有偏激言论的人互动后,被刻意教导出来的,因为微软当时还没有让Tay了解哪些言论是不适当的。
目前很多企业都在运用一些技术手段避免类似事件的发生,如改善数据集,或者增加限制性条件,微调模型,让AI可以更少的接触不良信息,但依然难以根绝有人刻意诱导AI。比如最近大火的ChatGPT就曾写过步骤详细的毁灭人类计划书,后来发现是有一位工程师在故意为之。
除了技术伦理问题的预防,在使用时的及时警告及紧急关停措施同样重要且必要。AIGC应该自带对生成内容的检测机制,确保不被用于危害社会。一旦发现可疑举动AI可以迅速反应,暂停服务,并且给出警告甚至自动报警。这不仅依赖技术发展,相关的法律法规同样必不可少,AIGC技术伦理问题需要社会各界的共同努力。
AIGC的版权问题从本质上说,AIGC是机器学习的应用。而在模型的学习阶段一定会使用大量数据,但目前对训练后的生成物版权归属问题尚无定论。对此问题,业内一般有两种观点。其一认为内容由学习数据集后生成,那版权就归数据集作者;另一种则认为AIGC的生产过程是完全随机的,没有版权问题,生成的版权属于AIGC作者或平台,具体规则由平台制定。目前的实践中,各平台的版权条例也偏向后者。
但无论哪种都会引擎一些原创版权作者的不满,比较常见的说法是“吃作者的饭,砸作者的碗”。很多人的愤怒点在于,为什么AI基于自己创作的作品生成的新作品却与自己无关?而且现行法律都是针对人类的行为规范而设立的,AI只是一种工具,不受法律约束与审判。即便证据充分,作者的维权之路通常也难言顺利。不过对于AIGC与作者的关系将会随着时代发展而逐渐清晰,界定也将更有条理性。
AIGC的欺诈问题近几年高科技诈骗手段层出不穷,AI经过训练后也可以创作出以假乱真的音视频,同时制作门槛也在日益降低,既可用于修改作品,也可用于制作全新内容。比如现在很常见的“换脸”“变声”等功能,一旦滥用就可能导致正规渠道信息的公信力减弱,久而久之危害甚大。
现在已有部分诈骗分子利用“换脸”技术实施诈骗,也有不法分子恶意伪造他人视频,再转手兜售到灰色市场,用于赌博、诈骗、非法集资等犯罪行为,极大的增加了执法机构的成本投入。
2.3 AIGC的违禁内容
从技术角度说,AIGC完全取决于使用者的引导,在安全措施不到位的情况下,AI对恶意诱导会不加分辨或判断,只会根据学习到的信息输出新内容,例如Tay的极端或暴力言论。一旦被人利用恶意造谣生事,或者编造花边新闻,除了对社会人物名誉和形象的损害,更会导致许多不必要的麻烦。这类新闻此前就屡见不鲜,无疑是应该被打击严惩的。
AIGC作为内容生产的新范式,在推动数字经济快速发展的同时也对国家相关法律法规机构及监管治理能力都提出了更高要求。很多国家在打击违法犯罪的同时也在不断完善法律法规,尽力避免潜在的社会漏洞。