云与端贯通，令AI应用易如反掌

云与端贯通，令AI应用易如反掌

2024-12-26 15:42

随着AI技术的快速发展与应用，大模型的部署已从云端训练逐渐向边缘端推理和微调延伸。这一转变预示着边缘计算领域将迎来前所未有的机遇与挑战。

云与端贯通，令AI应用易如反掌

6月13日下午，芯原（VeriSilicon）举办以“从云到端，AI触手可及”为主题的技术研讨会，聚焦大模型时代AI技术从云端到边缘端的最新发展趋势。研讨会邀请了乌镇智库、神顶科技（南京）有限公司、电子科技大学等产学研界嘉宾与芯原共同探讨了大模型在边缘端部署的机遇、挑战和实践案例，以及集成电路如何布局AI应用的长远发展。

芯原执行副总裁、IP事业部总经理戴伟进、乌镇智库理事长张晓东、芯原NPU IP研发副总裁查凯南、电子科技大学教授顾舒航、神顶科技（南京）有限公司董事长/CEO袁帝文、芯原高级副总裁、定制芯片平台事业部总经理汪志伟发表了精彩演讲。

大模型推动下边缘计算的机遇与挑战

在开幕演讲中，芯原执行副总裁兼IP事业部总经理戴伟进深入探讨了当前大模型技术带来的变革。他强调，大模型已在各个领域产生了深远影响，从最初AI技术在不同产品上的应用，到将大模型AI引入嵌入式系统，并渗透到边缘设备，如手机、AI-PC和汽车等，这些变化引人瞩目。

戴伟进指出，基于语言的多模态大模型不仅达到了深层智能水平，而且实现了爆发式发展。业内的激烈竞争进一步推动了AI在商业上的应用和大模型技术的快速发展。

他提到，ChatGPT的多模态能力、自然对话、真实信息和通用AI具有核心优势，而OpenAI的Sora视频生成模型和谷歌的Project Astra项目等创新，不仅展示了AI技术的前沿，也预示着未来人机交互的新趋势。

微软CoPilot+PC的算力升级、回溯记忆、实时字幕和渲染交互等新技术，同样引发了业界的广泛关注。特别是AGIBot推出的具身智能机器人“远征A1”，凭借百亿参数大模型和先进的AI技术为机器人领域带来了新的可能性。

他表示，作为行业内的佼佼者，芯原的神经网络处理器（NPU）全球累积出货已超过1亿颗，涵盖AI视觉、AI语音、AI图像、AIoT/智慧家居、AR/VR、自动驾驶、PC、智能手机、监控、数据中心、可穿戴设备、智慧医疗、机器人等应用。芯原图形处理器（GPU）和视频处理器（VPU）也已在全球范围内得到了广泛应用。芯原AI-Computing处理器技术以其可编程、可扩展、高性能和低功耗特点，为数据中心、边缘服务器等领域提供了强大支持。

戴伟进还介绍了芯原AI-Computing软件框架和Project Open Se Cura项目，展示了芯原在边缘与云协同计算领域的创新能力和领先地位。随着大语言模型在云端和移动设备上的不断发展和完善，这些技术将在未来智能时代发挥越来越重要的作用。

大语言模型的原理与未来趋势

乌镇智库理事长张晓东深入剖析了大语言模型的发展脉络。他首先以费曼的“微积分是上帝的语言”为引，提出当今的“上帝语言”已转变为“图灵机”的观点。他指出，图灵作为计算机科学与AI的奠基人，其理论对现今AI发展有着深远影响。

他进一步探讨了大语言模型背后的原理、自然语言处理的进步、多模态大模型的潜力和挑战，以及未来AI的有序发展。

他特别强调了ChatGPT的工作原理——图灵机求逆和生成式AI的核心思想。他提到，图灵机求逆实际上等同于下一个Token的预测，它奠定了大模型的基础。同时，他也指出了Transformer架构的重要性，并探讨了为何OpenAI能在此基础上取得成功。

张晓东还概述了AI发展的三条路线：逻辑主义、联结主义和强化学习，并指出了之间的内在联系。他特别提到Kolmogorov-Arnold叠加定理，证明了三层以上的神经网络可以逼近任意连续函数，从而揭示了深度学习的巨大潜力。

最后，张晓东从摩尔定律和Koomey定律的角度讨论了未来大模型训练成本的趋势，并预测了未来计算能耗的演变。他强调，虽然当前模型训练成本高昂，但随着技术进步，能耗将逐渐降低，将为AI的可持续发展铺平道路。

嵌入式设备Transformer神经网络的视觉感知

芯原NPU IP研发副总裁查凯南分享了当前NPU（神经网络处理器）领域的发展脉络及芯原在该领域的创新成果。他介绍说，自创立以来，芯原便以“视觉-自然语言-图像-语音”为基石，如今已蜕变为专注于“自然语言”处理的行业翘楚，128位客户已在多个场景中成功实现了技术落地。

查凯南指出，近两年NPU技术的演进主要聚焦三大方向：一是DEEP AI，旨在实现AI与其他处理IP在嵌入式设备中的紧密耦合，推动AI-ISP和AI Video的创新；二是注重嵌入式设备的低功耗、高性能及优异的PPA（性能、功耗、面积）平衡；三是以服务器中心，追求高性能TOPS，以应对大规模模型训练和推理需求。

他认为，端侧与云端的大模型应用各有侧重。端侧侧重于隐私保护与低比特量化能力，确保轻量化模型在移动设备上高效运行；云端则追求高性能、多卡多机分布式训练推理能力，以支持超级大模型的构建与应用。作为沟通的桥梁，自然语言有助于端侧与云端模型的无缝对接，为智能应用带来全新变革。

在NPU架构创新方面，芯原针对Transformer模型进行了深度优化，支持4比特、8比特等低比特量化，极大提升了运算效率与带宽利用率。芯原还构建了完善的软件生态，支持PyTorch、VLLM等多种主流框架，自研推理Toolkit等工具链可导入各类框架并量化生成易部署的Binary。此外，芯原还支持ONNX Runtime、多种数据格式，并对接Triton等高级编译语言，致力于开放接入，推动AI技术的广泛应用。

他展望道，未来芯原将继续深耕NPU领域，计划于2024年10月全面接入Triton等高级编译语言，以更开放的姿态拥抱行业生态，推动AI技术的持续进步与广泛应用。

AI-ISP的底层视觉应用实践

电子科技大学教授顾舒航深入解读了AI-ISP技术并分享了应用实践。他指出，随着深度学习在图像复原与增强技术中的突破性应用，ISP作为成像设备的关键部分，正面临前所未有的挑战：成像光学系统的局限性、器件物理特性的局限性和人眼视觉感知的非线性。AI-ISP不仅要求算法具备鲁棒性、灵活性和高效性，还需在硬件架构、网络结构、训练方式等方面实现创新。

他认为，AI-ISP有五大关键技术：领域特定架构（DSA）、硬件感知算法设计、数据工程与无监督训练、神经网络优化与量化技术以及可控神经网络。这些技术不仅可优化图像处理效率，还能提高成像系统智能化水平。

他还提到基于Transformer的全图自相关性计算、生成式模型快速推理和激进量化策略等研究方向，这些技术有望为图像压缩、自动驾驶等领域带来革命性的变化。

机器人大模型的端侧芯片需求和挑战

神顶科技（南京）有限公司董事长/CEO袁帝文深入探讨了机器人大模型对端侧芯片的需求与挑战。他指出，具身智能终端实际上就是机器人、移动出行设备，必须有先进的3D感知、交互和计算能力，尤其是空间计算能力，以实现对真实世界的理解和模拟。

他强调，随着AI大模型和3D空间计算技术的发展，具身智能正迎来前所未有的快速发展。而作为支撑这一发展的关键，端侧芯片面临着诸多挑战，如高算力、低功耗、实时处理等。

他进一步解析了机器人大模型对端侧芯片的具体要求，包括高实时性NPU的算力提升、Transformer运算优化、模型参数量化和压缩等关键技术；3D空间计算处理能力，如深度计算引擎和感知融合引擎，也是不可或缺的部分。

袁帝文最后表示，希望与芯原这样的业界同仁携手合作，共同推动AI技术从数字世界走向物理世界，实现更加智能化和有温度的机器人大模型。

面向AIGC的芯片设计平台和软件解决方案

芯原高级副总裁、定制芯片平台事业部总经理汪志伟分享了芯原面向AIGC的芯片设计平台和软件解决方案。他表示，随着大模型和AIGC技术的飞速发展，对算力的需求呈爆发式增长。这一趋势还从云端延伸到了边缘计算和传感器等各个领域。

作为一家拥有从IP到芯片设计一站式服务能力的公司，芯原深知这一变化对硬件设计的挑战，因此，芯原推出了全面满足从云端到边缘、再到终端算力需求的芯片解决方案。

他介绍说，芯原拥有六大类处理器IP，包括神经网络NPU、图形GPU、视频VPU、音频/语音DSP、图像信号ISP、显示处理，以及超过1500颗数模混合IP和射频IP。这些丰富的IP储备为AIGC相关芯片设计提供了坚实的基础。

在视频处理器领域，芯原市场份额排名第一，编解码已被全球前二十大云平台解决方案提供商采用。芯原的NPU全球累计出货超1亿颗，GPGPU搭载量已近20亿。这些高性能处理器为AI机器人大模型等应用提供了强大的算力支持。

在一站式定制芯片服务方面，芯原拥有从28nm到5nm等先进工艺节点的丰富流片与量产经验。通过SiPaaS系统级芯片设计平台，芯原已帮助众多客户成功设计了高性能芯片，其中不乏全球首批7nm EUV芯片和多款5nm芯片。芯原的该设计平台不仅支持多种处理器架构、总线和存储器，软件SDK进一步提升了芯片整体性能。

在云端芯片设计方面，芯原专注于AI和AIGC相关应用。例如，全球芯片大厂的转码芯片搭载了芯原AI引擎，实现了高效的图像和视频内容生成。芯原还为客户设计了数据中心高性能AIGC芯片，支持多核高性能CPU和GPGPU，满足不断增长的算力需求。

在汽车领域，芯原的自动驾驶芯片已获得车规安全认证，支持高达300TOPs/500TOPs的算力，为车载大模型提供了强大算力支持。芯原还提供从底层到中间层的完整软件协议栈，帮助客户充分挖掘硬件性能，实现高效的推理、训练和芯片间互联。

在算力扩展方面，芯原的Chiplet互联方案提供高达4-6路接口，满足数据中心对算力的极高要求；支持这一方案是相应IP可确保芯片间的高效互联。

在边缘计算和终端应用方面，芯原为客户提供了多种高性能AI-ISP和低功耗安全智能传感芯片等解决方案。这些芯片不仅具备强大算力，还以AI技术提升了图像质量，满足了手机、智能门铃、安全摄像头等多种应用需求。

圆桌讨论：大模型为终端设备赋能

圆桌讨论由芯原创始人、董事长兼总裁戴伟民主持，芯原执行副总裁/IP事业部总经理戴伟进、电子科技大学教授顾舒航、小米集团产业投资部总经理/小米产业基金管理合伙人孙昌旭、神顶科技（南京）有限公司董事长/CEO袁帝文和乌镇智库理事长张晓东等，就“大模型如何赋能终端设备”的热点话题展开热烈讨论。

戴伟民抛砖引玉道，在ChatGPT问世之前，即便棋艺高超的机器也只能被定义为“弱智能”。ChatGPT的出现使我们迈入了“通用AI”时代，迎来了“强智能”的崛起。尽管许多人对此感到忧虑，但我们必须正视并拥抱这一变革。

历史上，我们在前三次工业革命中起步较晚，面对第四次工业革命，如果我们选择回避，将可能永远被时代抛在后面，成为“弱智能”群体。这一变革不仅关乎汽车、手机等行业，而将渗透到社会各个角落。因此，我们别无选择，必须紧跟时代步伐。尽管我们在算力芯片等领域面临一些限制，但通过不懈努力，终将实现突破。

大模型如何赋能终端设备？

孙昌旭认为，大模型赋能终端设备适用于汽车这一大型智能终端。智能驾驶功能仅仅是AI汽车应用的冰山一角，要使汽车真正蜕变为一个全能的机器人，需要充分利用更多的感知。

芯原在融合感知计算和空间计算方面有着深厚的技术积累，能够将车上的各种传感器融合起来，发挥更大的效用。除了感知，车辆底盘调校同样需要AI助力，这是一个需要丰富经验和专业知识的领域。目前，大模型尚未深入这一领域，未来设计汽车的“芯片大脑”时，不仅要考虑如何实现智能驾驶和顺畅行驶，更要确保行驶的稳定性和舒适性。利用大模型可以对底盘自动转向、空气悬挂等数据进行深入分析，从而优化车辆的驾驶体验。

以小米汽车为例，其优秀的驾驶体验得益于出色的底盘调校。然而，这种调校目前主要依赖于人力和时间的积累。如果能够将大模型应用于底盘调校，就能在更短的时间内打造出更加出色的驾驶系统，让每一位驾驶者都能享受到极致的驾驶乐趣。

目前，专门为生成式AI算法设计的硬件加速器有TPU、NPU、LPU、IPU等，哪种硬件加速器可以更好地提升边缘端生成式AI模型的推理和微调效率？

戴伟民认为，大模型不应仅局限于云端训练。端侧有两大关键任务：一是利用云端训练出的“树干”——核心模型，而非仅仅局限于“树叶”——细节；二是针对垂直领域的微调，然后进行推理。在端侧，用于微调和推理的卡数量将远超云端的训练卡。当前，由于市场供应紧张，这些卡还要放在云端。

芯原在实现这一目标上也面临一些挑战，因此，需要特别注重端侧的推理和微调，端侧的机会更多。实际上，在终端设备上，微调和推理卡应当在端侧运行，而非完全依赖云端。这不仅可以解决隐私和安全问题，特别是在汽车这样的端上，微调和推理需求更加迫切。汽车上的两张关键卡——“微调卡”和“推理卡”将直接决定其智能化水平和用户体验。

怎么做才能用消费级摄象头将机器人感知做得更好？

袁帝文回答道示，将机器人技术普及至千家万户，大模型、人形机器人只是这一过程中的一个阶段，最终并不一定是完全人形。

对于消费市场，当前的主要挑战在于处理能力和市场接受度。我们需要在芯片设计上找到解决之道，使机器人能够以消费级产品的形式进入市场。例如，可以考虑创新性地用标准摄像头作广角摄像头使用。

此外，随着技术的演进，我们也需要重新思考机器人的产品形态。当前，搭载英伟达等大型芯片的机器人可能只是过渡阶段的产物。未来，机器人的应用场景将更加多元化，包括物流、安保等领域，以及家庭和个人使用。

然而，随着机器人逐渐融入人们的日常生活，我们也将面临一系列挑战。隐私保护和成本控制是其中最为突出的问题。为了解决这些问题，我们可以考虑采用更经济的传感器，并优化数据处理方式。

同时，我们也应该关注机器人技术的生态发展。随着智能手机等电子产品的普及，我们或许可以借鉴其成功经验，将机器人技术与其他电子产品结合，共同构建一个更加便捷、舒适的智能生活。

今天的AIPC、AI手机等主导生态会对整个产业带来什么影响？

张晓东指出，一场生态的深刻变革正在发生。回顾过去两三年，我们不难发现这个生态的变化极其迅速且剧烈。几年前，马斯克对AI的态度显得颇为不屑，但如今他表现出了明显的恐惧与敬畏。在生态控制层面，微软、苹果和谷歌无疑是三个重要角色。然而，他们各自控制生态的方式却大相径庭。

微软以其全面布局和整合能力构建了一个从头到尾、完整闭环的生态体系。苹果尽管在AI领域发力稍晚，但它凭借自身优势，选择与微软或OpenAI合作，以此快速补足短板并巩固了行业地位。

谷歌一直秉持一种半封闭的生态策略，与小米的合作便是一个典型例证。早在将AI或模型部署到端侧初期，谷歌便迈出了实质性步伐。去年年底，谷歌在其手机中集成了自研的约2B参数的小型模型，进一步彰显了在AI领域的技术实力和战略眼光。这不仅增强了谷歌手机的智能化水平，也为其生态体系注入了新的活力。

他认为，未来的走向仍充满不确定性，变革无疑将让整个生态更加错综复杂。一个重要问题是，是否希望一家公司独揽大权，掌控所有技术。这或许是马斯克深感恐惧的原因——他因未能及时赶上潮流而担忧。

此外，地域性问题也不容忽视。当苹果发布某项功能而大陆地区无法支持时，不仅引发了用户疑虑，也让我们思考：对于大陆市场，机会是增加还是减少了？这个边界究竟如何划定？