面壁智能线下首次公开完成数亿元融资，李大海：未来会让GPT-4o及更高水平模型上端｜甲子光年

日期：2024-12-29 作者：uiyb0 移动：http://mip.riyuangf.com/mobile/quote/79273.html

为什么说面壁智能是中国大模型“6+2”格局里极具辨识度的代表？

作者｜王艺‍‍‍

编辑｜王博

“首先和大家分享一个好消息：面壁智能完成新一轮数亿元融资，我们将站在一个全新台阶上，提速以端侧AI为代表的高效大模型商业化布局，为用户创造具体可感知的价值。”

今天上午，在2024甲子引力年终盛典上，面壁智能联合创始人、CEO李大海在线下首次公布了面壁智能的最新融资消息。

「甲子光年」了解到，本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任本轮独家财务顾问。

面壁智能是以“高效”为第一性原理的大模型公司。端侧模型面壁小钢炮MiniCPM凭借以小博大、高效低成本的性能优势，接连在端侧模型领域带来了GPT-4V和ChatGPT时刻，不仅在多项基准测试中接连越级领先，还将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧，创造多项纪录。自今年2月份发布以来，面壁小钢炮MiniCPM系列模型累计下载量突破300万，屡次登顶GitHub、HuggingFace大模型趋势榜单。

“模型肯定要卷，但是只卷模型是不够的，因为模型的迭代速度太快了。”李大海在2024甲子引力年终盛典上说，“我们希望用同等的参数做出更高性能、更低能耗、更快速度的模型，这些都意味着效率的提升。”

李大海透露，面壁智能会持续深耕端侧模型，“今年年初我们让GPT-3水平的模型上了端，9月份让GPT-3.5水平的模型上了端，未来会让GPT-4o及更高水平模型上端。”

在大会现场，李大海还动情地介绍，今天上午他刚刚给公司内部发了全员信，“站在年尾，感慨颇多。这是我们推动高效大模型深度服务客户的一年，我为面壁同仁的小钢炮精神骄傲！走先人一步的路，打以少胜多的仗，这就是响当当的小钢炮精神！”

把更高效低成本的大模型，放到离用户最近的地方，面壁智能的这一步，走得很坚定。

1.“面壁定律”与模型迭代

脱胎于清华NLP实验室，2018年就发布了全球首个知识指导的预训练模型ERNIE，2020年成为悟道大模型的首发主力阵容，2022年成立OpenBMB开源社区，同年面壁智能开始公司化运作。面壁智能不仅是全国最早研发大模型的团队之一，更是国内首个提出“高效大模型”概念的厂商。

自OpenAI提出Scaling Law并用GPT-3证明了其在文本数据上的有效性以来，各家模型厂商就在卷参数量的道路上一去不复返，模型越做越大，涌现出了千亿、万亿甚至十万亿的模型。但越到后面，大家渐渐发现参数量更大，不代表模型效果更好。

在面壁智能看来，如果大模型作为实现AGI的关键路径，但成本却无比高昂，那意义也不大，所以要降低模型成本。对大模型来说，“效率”至关重要，只有在做好成本控制的基础上达到更好的效果，才能扩展大模型的应用边界。

该怎么提升大模型训练效率呢？

在2024年初的一篇论文《Predicting Emergent Abilities with Infinite Resolution Evaluation》中，面壁智能提出了解决思路：如果大模型还未训练出来时就能预测性能大约在什么水平，那么可以先通过小模型做实验、调参数，再按照相同的数据配比、参数调整等方法训练大模型。

通过此方法，面壁智能成功实现了用小十倍参数模型预测大十倍参数模型的性能，并且取得了不错的成绩。

旗舰端侧基座模型MiniCPM以2.4B的参数量，在性能上超越Mistral-7B、Llama2-13B乃至更大的全球知名模型；旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR表现，部分能力比肩世界级多模态模型标杆Gemini-Pro与GPT-4V；今年5月发布的MiniCPM-Llama3-V 2.5，超越多模态巨无霸Gemini Pro 、GPT-4V实现了“以最小参数，撬动最强性能”的最佳平衡点。

小参数、高性能模型逐渐成为AI技术趋势，图片来源：面壁智能

由此，面壁智能提出了以知识密度为核心的“面壁定律”——大模型的知识密度每8个月提升一倍。其中，知识密度=模型能力 / 参与计算的模型参数。

面壁定律，图片来源：面壁智能

数据表明，相比GPT-3，参数规模小的多的MiniCPM2.4B具备同等性能，整体知识密度提高了约86倍。

面壁高效大模型还在持续进化中。在今年的世界人工智能大会（WAIC 2024）上，面壁智能还发布了高效稀疏模型MiniCPM-S，和助力开发者打造SuperAPP的全栈式工坊MobileCPM。

MiniCPM-S 1.2B采用了高度稀疏架构，通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练，巧妙地解决了此前主流大模型在稀疏激活上面临的困境，实现知识密度的“空前提升”——达到了同规模稠密模型MiniCPM 1.2B 的2.57倍，Mistral-7B的12.1倍。

而今年9月，面壁智能发布的MiniCPM 3.0更是再次挖掘了端侧模型的极致性能，仅靠4B参数，就在包括自然语言理解、知识、代码、数学等多项能力上超越了GPT-3.5，在Qwen2-7B、Phi-3.5、GLM4-9B、LLaMa3-8B等一众中外知名模型脱颖而出。

李大海今天在2024甲子引力年终盛典上介绍，目前面壁智能已将“面壁定律”升级成了“Densing Law”，大模型的知识密度也从平均每8个月提升一倍，变成了平均每3.3个月提升一倍。

李大海认为，电力有能量密度，芯片有摩尔定律，大模型也有知识密度。

“今年年初我们让GPT-3水平的模型上了端，9月份让GPT-3.5水平的模型上了端，未来会让GPT-4o及更高水平模型上端。”李大海说。

2.All in 端侧AI

在这波AI浪潮中，面壁智能是国内少有选择All in端侧AI的头部大模型厂商。

面壁智能自成立以来，一直致力于大模型的“高效训练”。在探索Scaling Law的过程中，面壁智能发现了可以通过小模型预测大模型性能的技术路线Scaling Prediction。

基于高效Scaling Prediction的技术路线，面壁智能有两条产品技术线：一条是基座大模型，另一条是给大模型做端侧版本。这一方面可以提升大模型的效率，让每个参数发挥更好的效果；另一方面也能在与应用场景相匹配的成本下做出最好的模型。

“这两条产品线，其实是一条路，就是面壁通往AGI的道路。”此前在接受媒体采访时，面壁智能CTO曾国洋说。

「甲子光年」观察发现，面壁智能做端侧模型，是基于其高效训练的理念、技术普惠的目标、产品技术线的布局和市场需求等多方面因素共同作用的结果，而MiniCPM等一系列模型的成功也证明了面壁的技术实力和战略方向的合理性。

面壁智能的端侧模型有两个着力点：语言模型和多模态模型。

其中端侧的多模态模型更重要不是“生成”而是“感知”，是和环境的深度互动。面壁智能发布的端侧最强多模态模型MiniCPM-V 2.6增加了实时视频理解、多图联合理解、多图ICL视觉类比等功能，首次在端侧实现了单图、多图、视频理解等多模态核心能力全面超越GPT-4V，单图理解越级比肩Gemini 1.5 Pro和GPT-4o mini。

“像iPad这样的设备，借助摄像头就能‘开眼看世界’。”李大海说。

为了推动端侧模型更好地融入端侧设备，面壁智能与联发科技、英特尔等芯片企业展开了深度合作，通过降低模型功耗的方式，做模型和芯片的深度适配。与芯片更好适配的端侧模型在AI Phone、AIPC、智能座舱、智能家居与具身机器人等领域发挥了重要作用，在今年的世界机器人大会上，「甲子光年」就注意到，面壁智能联手加速进化，实现了业内首个高效端侧模型在人形机器人上的应用。

此外，面壁智能还积极与行业下游合作，在主流消费电子和新型硬件上融入端侧AI，布局端云协同的未来范式。今年6月，面壁智能与华为云达成了正式合作，共同推进大模型端云协同解决方案的研发和部署；今年9月，面壁智能与长城汽车签署战略合作协议，表示将在大模型技术的研发与应用上展开深入合作，推动智慧出行与用户服务的发展。

3.推动高效大模型深度服务客户的一年

除了布局端侧AI，得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累，面壁团队还将大模型深度应用到法律、教育、金融等垂直领域，用技术赋能行业场景。

李大海在2024甲子引力年终盛典上给出的评价是：“这是我们推动高效大模型深度服务客户的一年。”

今年7月，面壁智能、人民法院出版社、深圳迪博共同助力深圳中院，正式启用了全国首个司法审判垂直领域大模型，该大模型全面覆盖立案、阅卷、庭审、文书制作等审判业务的85项流程，能够精确诊断案情，充分尊重裁判者的自主决策权，确保技术进步不“越俎代庖”，让司法裁判始终由审判人员作出，解决了AI在司法领域的应用难题。

今年11月，面壁智能作为联合研发团队参与的千亿参数通用大模型“法信法律基座大模型”在最高法发布，训练语料是经过高质量专业标注的万亿字量级法律专业数据。法信法律基座大模型定位为法律行业基座模型，既是一个为法治领域提供生成式人工智能底层能力的基座模型，也是一套为保障法律人工智能安全发展，配套安全治理机制，提供数据资源、算力资源、评测资源的服务体系。

“法信法律基座大模型”研发成果新闻发布会，图片来源：面壁智能

同样被赋能的还有金融场景。面壁智能与国内头部银行客户进行了深入合作，通过大模型为客户的“智能财富助理”产品提供强大的语言对话能力和逻辑推理能力，解答用户在金融理财等业务咨询中的专业问题。

“所有的领先，往深处都是认知的领先；任何商业竞争，归根结底都是效率的比拼。高效，不仅是我们企业运营的核心；在商业环境中，也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。”在新一轮融资的全员信中，李大海的表达很直接。

李大海在2024甲子引力年终盛典现场演讲

今年下半年，市场竞争愈发激烈，中国大模型的比拼也进入了新阶段。

但面壁智能显然走出了一条符合自己特点的道路，成为了中国大模型“6+2”格局里极具辨识度的代表。

“我们相信，人工智能的发展经过了几次起落，接下来肯定不会再落到地上了，”李大海说，“因为大模型带给行业的价值是实实在在的。”

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行