超强总结!深度学习、大模型发展历程!

   日期:2024-12-27     作者:pn5em       评论:0    移动:http://mip.riyuangf.com/mobile/news/8679.html
核心提示:深度学习作为人工智能核心领域的关键部分,已在图像、语音和语言处理等多个领域实现重大突破。探究任何学科,须从其

深度学习作为人工智能核心领域的关键部分,已在图像、语音和语言处理等多个领域实现重大突破。探究任何学科,须从其历史根源起步,洞悉历史脉络,方能掌握当下,洞察未来。

超强总结!深度学习、大模型发展历程!

前排提示,文末有大模型AGI-CSDN独家资料包哦

深度学习的发展历程是怎样的呢?接下来,我们一同探究深度学习的历史足迹。

1940-1950年代:神经网络初始理念

1943年,Warren McCulloch与Walter Pitts在论文《神经活动中内在思想的逻辑演算》中提出MCP模型,标志着神经网络与数学模型的诞生,为这两大领域奠定了基础。

MCP旨在利用计算机复制人类神经元的反应机制,将神经元简化为三个核心步骤:输入信号线性加权,信号求和,以及非线性激活(采用阈值法)。具体过程如以下图表所示。

:1949年,Hebb提出Hebbian学习规则,揭示神经元A接收B输入并持续输出时,两者连接强度增强。此规则与条件反射机理相符,神经细胞学说已证实。Hebbian学习规则为神经元连接强度学习机制奠定理论基础。1950s-1960s:Rosenblatt于1958年提出感知器,由两层神经元构成,用于二分类多维数据,并自动学习更新权值。Minsky和Papert在1969年指出感知器为线性模型,仅能处理线性分类,如XOR问题。

图示:无任何直线能区分绿色与红色点–异或问题

1980s-1990s:多层感知机与反向传播技术崛起。Hinton等人在1985年提出受限玻尔兹曼机(RBM,一种用于无监督学习的随机神经网络,擅长特征提取和降维。1986年,Hinton发明了针对多层感知器(MLP)的BP算法,引入Sigmoid非线性映射,有效攻克了非线性分类与训练难题,掀起了神经网络热潮。1989年,LeCun等应用BP算法训练卷积神经网络(CNN)识别手写数字,标志着其在图像识别领域的突破。

:CNN模型

1990s-2000s:深度学习奠基与发展
- 1990年,Elman提出Elman Networks,即RNN的基础。
- 1991年,Hochreiter揭示梯度消失问题,影响RNN和深度网络。
- 1993年,Hinton研究自编码器,概念早于该年。
- 1997年,Hochreiter和Schmidhuber提出LSTM,解决RNN梯度消失。
- 1998年,LeCun等改进CNN,发布LeNet-5,手写数字识别先驱。

2000s:深度学习复兴
- 2006年,Hinton等提出深度信念网络和深度自编码器,引入逐层预训练。
- 同年,NVIDIA的CUDA框架加速深度学习。

2010s:深度学习突破与普及
- 2012年,AlexNet在ILSVRC中胜出,引入ReLU激活,CNN技术普及。
- 2013年,DQN结合深度学习与强化学习,在Atari游戏超越人类。
- 同年,Kingma和Welling提出VAE,结合贝叶斯与深度学习。
- 2014年,Goodfellow等提出GAN,推动生成模型发展。

:GAN模型

2014年6月24日,Google DeepMind推出《Recurrent Models of Visual Attention》,引发了对注意力机制的广泛关注。该研究运用RNN模型,融入注意力机制于图像分类,率先将注意力机制引入深度学习领域。

2014年9月,Bahdanau、Cho与Bengio发布《Neural Machine Translation by Jointly Learning to Align and Translate》,引入注意力机制革新了机器翻译,强化了对长序列的处理。这一突破成为机器翻译史上的里程碑。2015年5月,Ronneberger等提出U-Net,以其对称U形架构和跳跃连接融合特征,实现了精准的生物医学图像分割。U-Net的设计巧妙解决了小样本挑战,广泛用于医学和遥感图像处理,对图像分割领域贡献巨大。

:U-Net

2015年12月10日,何凯明团队发表《Deep Residual Learning for Image Recognition》,提出ResNet(残差网络,通过残差连接攻克深层神经网络训练难题。ResNet在ILSVRC 2015夺冠,大幅提升深度学习模型性能和可训练性。其创新架构支持构建更深网络,推动计算机视觉如图像识别、目标检测发展,是深度学习的关键支柱。

:ResNet

2015至2016年间,Google和Facebook推出TensorFlow、PyTorch与Keras,极大推动了深度学习领域的研究与应用,显著简化了复杂神经网络模型的开发与训练流程。

2016年,Google DeepMind的AlphaGo战胜围棋冠军李世石,彰显了深度强化学习的巨大潜能。

2017年,Google Brain推出《Attention is All You Need》,引入Transformer,摒弃了RNN和CNN,全面采用注意力机制进行机器翻译。此创新如彗星划空,迅速震撼NLP学界,深刻重塑了自然语言处理领域,对BERT、GPT等后续模型影响深远。

:Transformer

2018年6月,OpenAI推出革命性模型GPT,标志着大规模预训练的里程碑。同年10月11日,Google AI推出BERT,引入自回归与自编码预训练方法,与GPT并驾齐驱。GPT与BERT成为后续大规模预训练模型的基石。

:BERT

2020s:深度学习拓展新篇章
2020年10月22日,Google团队推出《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,提出Vision Transformer(ViT,该模型以简洁高效、可扩展性强(规模越大性能越佳)的特点,在CV领域引领变革,开启了Transformer应用新纪元。2021年2月26日,OpenAI发布《Learning Transferable Visual Models From Natural Language Supervision》,推出CLIP模型,实现图像与文本的对比学习,奠定多模态AI研究基础,加速图像生成、理解和交互领域发展。同年7月,Google DeepMind在《Nature》上连续发表AlphaFold相关论文,发布AlphaFold 2,在蛋白质结构预测竞赛中展现惊人准确度,对生物医学研究、药物设计等领域产生深远影响。2022年12月20日,Stability AI发布Stable Diffusion,一种基于扩散模型的图像生成技术,成为AI绘画领域的关键模型,支持文本到图像(txt2img)和图像到图像(img2img)等多种生成任务。

:Diffusion Model

2022年7月,David Holz推出Midjourney AI,运用GANs与深度学习技术,依文本生成高品质图像。11月,OpenAI发布GPT-3.5,ChatGPT成为全球抢手货,掀起大语言模型风潮。ChatGPT等大语言模型展现惊人实力,各类多模态预训练模型如春笋般涌现。

:Albert Gu与Tri Dao于2023年12月1日发表的论文《Mamba:基于选择性状态空间的线性时间序列建模》展示了Mamba,一种新颖的神经网络架构,区别于Transformer,擅长处理长序列数据,兼顾效率与性能。该技术对于自然语言处理、语音识别及生物信息学等处理海量数据的应用场景极具实用价值。

:Mamba

2024年2月18日,OpenAI推出SORA模型,该文本转视频技术融合了顶尖的Transformer与GAN架构,深度应用CLIP技术,显著提升文本生成视频的质量。

:SORA生成的视频

2024年5月8日,DeepMind发布论文《AlphaFold 3精准预测生物分子交互结构》,推出AlphaFold 3,以革命性的精确度预测了所有生物分子的结构及互动。相比现有技术,AlphaFold 3在蛋白质与其他分子间交互的预测上提升达一倍以上。

:AlphaFold 3预测的蛋白质三维结构

本文深入梳理了深度学习自1940年代以来的演进,包括早期神经网络、感知器、多层感知机、反向传播、循环神经网络、自编码器、深度信念网络、生成对抗网络和Transformer等关键阶段。尽管如此,文章亦存在局限,如将反向传播算法的功劳归于Geoffrey Hinton,而实际上,Seppo Linnainmaa才是其早期研究者。同时,文章未能全面反映深度学习在各行业和新兴领域的最新融合进展。期待未来有更多研究和探讨,以深化我们对这一领域的理解。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型

👉AI大模型学习路线汇总👈

第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用

第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统

第四阶段 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统

第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型

第六阶段 以SD多模态大模型为主,搭建了文生图小程序案例

第七阶段 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
👉学会后的收获👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等,通过这门课可获得不同能力

• 能够利用大模型解决相关实际项目需求 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求

• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号