分享好友 最新资讯首页 最新资讯分类 切换频道
李开复周志华纵论AI大模型,万字梳理MEET25大咖激辩,320万观众同见证
2024-12-27 16:43

「Scaling Law」和「打脸时刻」,绝对是2024年科技智能领域的年度关键词。

李开复周志华纵论AI大模型,万字梳理MEET25大咖激辩,320万观众同见证

坏消息是,传统定义上的Scaling Law在放缓,但好消息是又有新的Scaling Law出现。

拉长时间维度,其实Scaling Law在AI发展领域中一直起着作用。

人类在哪个时间点上,如果突然之间被打脸了,那就是超级时刻。

不断打脸,最终才能知道哪个才是所谓的Killer APP。

站在诺贝尔奖对AI青睐有加的2024年年尾,他们回顾技术、产品和商业的发展,也毫无保留地传递对未来的规划、已经洞察到的机遇;有人热心站出来解答了近期热议的困惑,有人坦白曾因技术的放缓有过短暂忧虑,也有人为从业者、爱好者、观望者指明值得一试的方向。

有深度,够前瞻,思考碰撞,激情四溅。

围绕着「智变千行,慧及百业」这一主题,本次大会嘉宾们畅聊了关于「技术演进时」「无限未来时」「拐点来临时」和「应用正当时」的所见所思所想。

来,跟着量子位真人编辑和ChatGPT、Claude等大模型一起划重点。

技术演进时 李开复:Scaling Law放缓,AI-First应用爆发加速

MEET2024智能未来大会以零一万物首席执行官、创新工场董事长李开复和量子位总编辑李根的深度对话拉开帷幕。

对话中,李开复透露出OpenAI的瓶颈与挑战:GPT-5的训练并非一帆风顺。大规模GPU集群的效率递减、数据与算力瓶颈,让Scaling Law(尺度定律)不再一骑绝尘。OpenAI也面临着算力投入与商业回报的博弈。

坏消息是,传统定义上的Scaling Law在放缓,但好消息是又有新的Scaling Law(o1推理范式)出现。

首先,AI 2.0已经成为世界各国的“未来之战”,将重塑经济版图和创新格局。中国绝对不能放弃大模型预训练。从国家技术竞争力角度看,掌握了大模型预训练就等于掌握模型能力的上限和安全可控的底线。

其次,当前大模型已“足够好、足够便宜”,中国开发者应抓住应用井喷的黄金窗口期,结合中国巨大的市场需求和落地场景,借鉴移动互联网时代领先世界的工程能力和产品微创新迭代能力,打造“Made in China”的“ChatGPT时刻”。

他提醒AI 2.0创业者不妨先算一笔账:自己的基座大模型能力是否有独特价值?自己是否有预训练技术优势做出性能位居世界第一梯队但又快又便宜的模型?如果自研的模型无法超越开源模型,不妨专注在应用创新上。

在商业策略上,零一万物打造的预训练模型Yi-Lightning不仅在国际权威的“大模型竞技场”LMSYS盲测中创下中国大模型历史最佳成绩,而且推理成本仅为GPT-4o的三十分之一。

零一万物也积极探索AI 应用落地:国内以To B为主,海外侧重To C。以多快好省的方式训出世界第一梯队模型,同时用“又快又好”的大模型为应用开发者赋能,打造健康良性的大模型创新生态。

李开复相信,未来大模型头部玩家更应聚焦AI-First应用端的价值创造,就像过往PC、移动互联网时代的创新发展路径一样,创造最大经济价值的往往是应用层。

智源王仲远:其实Scaling Law一直在AI发展中起作用

北京智源人工智能研究院院长王仲远博士指出,当前人工智能正处于一个新的拐点。

大模型的出现标志着弱人工智能向通用人工智能的转变。尽管目前的大模型能力仍存在不足,但已能看到它对各行各业的深远影响。

他谈到了当下最热门的一个话题:Scaling Law是否撞墙/失效了?

看过去七、八十年,每一次新的科技浪潮背后都有一些本质规律,即随着模型参数、训练数据及计算能力提升,模型效果也会有巨大提升。

至于大模型未来的发展方向,在他看来,除了文本数据,世界上还存在大量的图像、音频、视频等多模态数据。如何激发这些数据中的智能,是未来大模型研究的重要方向。

“最终将出现一个统一的多模态大模型,实现人工智能对世界的感知、理解和推理。”王仲远说。

蚂蚁集团王旭:开源社区为技术方向提供中立而广泛的信息

在蚂蚁集团内部,大模型的应用已经渗透到财务数据分析领域,极大地提高了处理效率和深度。

社区数据虽然不全面,却能反映外部视角,为技术方向提供中立而广泛的信息。

社区数据显示应用的 AI化和AI应用框架都在大量涌现。在应用方向单单是直接的数量提升和加速就已经可以引发显著的变革,比如蚂蚁的金融相关服务和它们背后的开源多智能体框架 agentUniverse。

他提供了一张可参考的折线统计图,其数据显示,在LLaMA模型开源后,相关项目迎来了爆发式增长。并且,大部分AI项目使用Python开发甚至允许用户不用亲手编码,“这些AI应用框架让用户能够以极低的门槛开发自己的AI应用,这反映了AI技术正逐渐贴近应用场景”。

另一个观察是,除了硬件资源的变化,软件基础设施也在经历着微妙的变化。王旭表示,虽然分布式系统的基础架构变化不大,但应用基础设施和场景产生了新的需求。他提道,AI 2.0时代正在形成新一代的LAMP架构,应用会围绕模型展开,这在基础设施的每个环节都引发了深远变化。

最后,王旭鼓励技术从业者根据时代的需求调整软件架构,并演进自己的基础设施。

华为王辉:网络与AI之间,就是Network for AI和AI for Network

会上,华为数据通信产品线NCE数据通信领域总裁王辉围绕《AI大模型使能网络迈向高阶自智》这一话题,站在工业领域和ToB行业的视角开始了他的分享。

Network For AI,指如何用网络加速AI训练和推理 Al For Network,指用AI手段让网络变得更加稳定可靠,助力千行万业的发展

在Network for AI方面,王辉指出网络是支撑AI训练规模演进的关键底座;华为通过实时动态的AI集群网络均衡负载和AI识别预警故障,避免了AI训练中断,同时让AI训练不受跨数据中心、跨地域的限制;为大模型的规模化、分布式训练和推理带来了本质性提升。

在AI for Network领域,王辉以网络“自动驾驶”形态为类比,诠释了AI在工业垂直场景的真正挑战:实时性、严谨性与场景泛化能力。在网络行业这样的关键性基础设施中,毫秒级响应,零容错成为精准决策的刚性要求。为此,华为提出“一脑、一图、一网”的三层架构,让AI充分赋能网络,为工业应用提供智能的运营保障。

他还强调:

在工业领域,数据质量、精准控制和成熟工具均不可或缺,大模型是其中关键的一环,大模型在逐步规模应用的同时,还会将连接和注智工业领域各种业务管理的核心要素,驱动千行万业迈向“自动驾驶”。

潞晨科技尤洋:视频大模型需要实现精细化文本控制、任意角度拍摄和角色一致性

就像萨姆·奥特曼说的那样,今天是Video GPT-1的时刻,可能三年之后就是视频大模型的GPT-3.5、GPT-4时刻。

最关键的是要实现三大核心能力。

首先是精细化的文本控制能力。视频大模型应当能够准确理解并呈现用户描述的细节内容,从人物特征到场景要素都要做到精准把控。

其次是实现任意机位、任意角度的拍摄能力。这种突破可能彻底改变体育赛事直播等领域,让观众能够自主选择观看视角,“相当于在体育场里能够瞬间移动,移到教练席,移到最后一排,移到第一排”。

第三是保持角色一致性。尤洋指出,这对商业变现至关重要,“比如一个产品的广告,这个视频肯定从头到尾不管是衣服、鞋、车子,它的样貌不能有太大变化”。

对于视频大模型的商业前景,尤洋认为其将为电影制作带来革命性变革。通过AI技术,可以大幅降低特效场景制作成本,减少对危险镜头拍摄的实际需求,让创作更加自由。

未来只需要演员的ID和演员的肖像权,AI其实就可以把很多危险镜头做好,对电影行业能够极大地做到降本增效。

无限未来时 商汤徐立:超级时刻可转化为另一个词,叫“打脸时刻”

在他看来,接下来的AGI时代一定也是场景化推动整个技术的迭代,“技术本身只是一个技术”。

场景应用一定是驱动力,没有场景应用不知道市场上模型到底长成什么样;模型也一定是驱动基础设施建设的核心驱动力,今天任何一个模型的变化所引起的基础设施成本价值的变化是巨大的。

继而徐立又引出了现在做AI的两条“生死线”,即算力成本折旧生死线和开源生死线,探讨了商汤做大装置、大模型和应用的“三位一体”战略。

有意思的是,在被问到“什么事情发生是可以确认“超级时刻”到来了?”,徐立的回答深入人心,以至于后面几位嘉宾也反复提到。

我觉得超级时刻可以转化成为另外一个词,叫作“打脸时刻”,人类在哪个时间点上,如果突然之间被打脸了,那就是超级时刻。

什么是“iPhone时刻”,所有人都认为手机得有键盘,然后iPhone来了没有键盘的。为什么ChatGPT是超级时刻?是因为原来做AI都觉得自然语言还远呢,突然之间一下出来大众还都认可,解决了图灵测试的问题,其实这是典型的打脸时刻。

小冰李笛:“私域运营”成为大模型时代新蓝海

过去一年,小冰很沉默。

但沉默之下是静水深流:2024年,小冰国内的AI toC产品,付费用户数是Character.AI的20多倍,付费转化率约为ChatGPT的8倍。

一个核心切入点是GPU算力成本与收入的比例(GPU cost vs Revenue),李笛将此作为AI toC商业模式成败的关键指标。只有当AI生产内容的成本显著低于用户付费,才能为C端和产业链上下游提供可持续的价值分配。

此外,李笛还分享了关于AI产品形态和用户价值认知的演变。

目前,Chatbot提供的对话形式和陪伴,对用户来说已不再稀缺,同时对话的高耗能显著,Chatbot注定不再成为大众产品(除非能提供非常高的附加值)。

相反,“私域运营”成为大模型时代的新蓝海,AI能够为成千上万的私域用户提供高并发且个性化的价值内容,从而在高留存、高价值的场景中实现商业闭环。

VAST宋亚宸:AI原生3D创作者将探索出新的内容范式

从700万全球用户生成的3D模型中,能看到3D生成的哪些可能?VAST创始人兼CEO宋亚宸有话说。

他分享说:“3D生成会成为一种新的交互形式,就像有个成语叫作‘言出法随’。”

VAST是一家自研3D大模型的公司,旗下3D大模型Tripo可以通过文字、图片等多模态输入,生成完整的3D模型,支持游戏、动画、元宇宙等多个领域应用。

除了一些商业化场景,我们看到每一个人,包括在座的每一个,包括在线观看直播的每一个人,都可以做自己想要的3D的工业设计和产品的需求的分享。

宋亚宸展望,明年在3D生成领域将聚拢百万级开发者;到2025年,开发者数量或达千万级别;2026年,这些AI原生3D创作者将探索出新的内容范式。

而在技术路线上,宋亚宸提出了三步走战略:第一步是静态内容生成,第二步是动态内容生成,第三步是实现全民零门槛3D创作。

南京大学周志华:学件基座系统有了数以百万计模型,很多我们没预期过的事也有可能能做

他提到了“学件”概念,可以简单理解为:学件=模型+规约。

如果大模型是几个大英雄打天下,那么学件就是认为力量蕴藏在人民群众中。当学件基座系统有了数以百万计的模型,这条路线的力量会涌现出来,很多我们没预期过的事也有可能能做。

周志华提出了一个令人耳目一新的观点:不需要获取开发者的原始训练数据,就能实现模型的有效复用和协同。这种方式既保护了数据隐私,又最大化了模型价值。

他用了一个生动的比喻:

今天当我们要用一把切肉的刀,不会自己去采矿打铁,而是去超市选购。同样,未来用户使用AI,也不必从头收集数据训练模型,而是提交需求,“学件市场”会根据用户需求寻找和组合合适的模型反馈给用户。

在技术实现上,周志华团队构建了规约设计方案,包括语义规约和统计规约,并证明这种方案能有效保护开发者数据不泄露。

目前,他们已开源了“北冥坞学件基座系统”,邀请更多开发者参与其中。周志华表示,当前市面上的Hugging Face可以看作是学件1.0版本,而完整的学件体系将带来更多可能性。

作为一个全新的技术范式,学件基座系统可被看作一个异构大模型,不仅能实现大小模型协同,还能避免灾难性遗忘,实现终身学习。

拐点降临时 钛动科技陈德品:千行百业都需要AI,更需要的是增长

钛动科技CTO陈德品分享了AI在出海营销领域的创新实践。

具体到出海场景,陈德品分析认为,目前出海依托于两大势能:移动互联网和供应链势能,使得整个赛道保持30%-40%的年增长。

在具体实践方面,陈德品分享了钛动科技的核心AIGC产品Tec Creative 2.0,能够帮助商家在几分钟内完成社媒营销素材的生产,提升效率。

他特别强调了一个发现:

在营销应用领域也存在类似Scaling Law的规律。

当营销需要素材工业化生产时,不断提升生产效率,可以逼近爆款发现概率,我们认为营销是能够通过效率逼近无限,进而带来效果极大提升,最终产生爆款。

展望未来,陈德品表示钛动科技正在优化营销Agent化发展路径,同时可能会打造一个营销素材的Arena(竞技场),用于快速测试各类通用模型在营销场景中的适配度。

新奥泛能网程路:垂直行业的AI颠覆一定会发生

作为深耕能源行业17年的产业老兵,新奥能源副总裁,新奥数能科技有限公司总裁(即新奥泛能网总裁)程路分享了传统能源行业拥抱AI的实践与思考。

作为传统能源行业的先行者,新奥泛能多年来一直在探索智能化,但此前更多是以局部算法和机理模型为主。如今,大模型的出现改变了两个重要环节——

决策智能:辅助管理层快速做出最优方案决策 运营智能:实现能源领域运营层面的自治状态 交易智能:优化源网荷储的实时交易

他强调,这一切的底座在于强大的仿真模型——将物理世界映射到数字世界,让企业不需要在物理世界付出大量试错成本就可以实现参数调优或者解决问题,仿真强调大量的运行边界条件与行业机理,需要模拟实时运行态。程路特别指出:“这种仿真更像现在‘汽车自动驾驶系统’”,最终将大幅度提高能源品质,降低损耗成本。

“垂直行业的AI颠覆一定会发生。”程路相信,随着大模型技术门槛的不断降低和产业数据资源的充分释放,能源这类传统领域也将涌现出颠覆性的创新。

小米孟二利:汽车行业正从“软件定义汽车”迈向“AI定义汽车”的新拐点

小米技术委员会AI实验室高级技术总监孟二利分享了小米如何运用工业大模型赋能汽车智能制造的探索与实践。

小米从2016年就布局AI领域,2023年更是组建大模型团队,将前沿技术应用到手机、汽车等产品中。在汽车制造领域,小米选择从“大压铸”工艺突破,首先聚焦于材料研发和质量检测两个方面。

传统新材料研发采用“试错法”,周期可能长达10年,这是业务无法接受的。

为解决这一难题,孟二利团队创新性地提出“灰盒模型”方案:

结合数据驱动的AI黑盒方法与材料学机理驱动的白盒模型 使用仿真软件生成大量、低质量,数据生成预训练模型 利用少量、高质量实验数据进行模型微调

最终形成了一套多元的材料AI仿真系统。基于此,团队从上千万候选空间中成功研发出小米泰坦合金材料。

此外,在质量检测方面,团队还研发了工业质检大模型。解决了质检行业难题,作为AI+制造标杆多次被央视报道。

展望未来,孟二利认为汽车行业正从“软件定义汽车”迈向“AI定义汽车”的新拐点。他提出三点建议:加强数字化基建、推进行业标准化、探索适合工业场景的大模型技术。

声网刘斌:Agent落地,实时性要求和工程化落地是关键

大会现场,声网首席运营官刘斌分享了一个看似离大模型有点距离,实则却不可或缺的环节,那就是RTE实时互动在AI Agent时代的全新价值”。

首先是实时性要求。与传统的文本交互不同,多模态Agent需要双工实时对话。根据声网的测试数据,要达到自然对话体验,延迟需要控制在1.7秒以内。

真正的产品化落地,不是在实验室做个demo,而是要确保在各种终端、各种网络环境下都能稳定运行。目前,声网通过在音频采集、传输、播放等多个环节的不断优化,可以实现人与AI语音对话延迟低至500ms。

其次是工程化能力。声网构建了覆盖全球的SD-RTN网络™,支持30多个平台、30000多终端机型,能在400毫秒内实现端到端传输,这些积累让AI Agent快速规模化成为可能。

过去,人与AI的交互多以文本形式进行,延迟和体验问题并不突出。但当下,大模型正在快速演进为多模态Agent,用户可以语音、视频与AI交流,并期望获得如同面对面对话的自然感。这要求极低的传输延迟与高度鲁棒的网络质量支撑。

“只有把交互延迟做到低延时,并具备智能打断、超拟人化等特性,用户才会感受到与真人交流般顺畅的对话体验。”展望未来,刘斌提出,需要针对人机对话特点开发专门的优化方案。

应用正当时 智谱张帆:AI开始变成基础生产要素,或对商业带来底层变化

张帆表示,过去仅两年时间,模型各方面能力得到了提升,与之相对应的是成本的下降,由此带来了技术能力快速地落地和应用。

在这个过程中,智谱对AGI目标能力的理解分为五级:

第一级是语言;第二级是对复杂问题的求解,像o1这样的能力出现;第三级是使用工具,比如自主智能体可以像人一样操作手机、PC甚至汽车界面来获取信息;第四级是自我学习;第五级是超越人类,AI将具备探究科学规律、世界起源等终极问题的能力,所以通往AGI之路将是一个清晰和明确的链路。

张帆强调,大模型已不再只是技术,开始变成新型基础生产要素,有可能对商业带来很多底层、上层的变化,包括工作方式、组织形式、商业模式,甚至每个企业的壁垒。

最后张帆探讨了大模型时代企业或个人该如何构建自己的科技战略,他认为关键有四个要素:

选择合适的基座,构建与战略目标和业务属性相匹配的组织,基于场景和AI能力重新定义数据资产,把这些能力无缝融入到业务当中,从而形成一个飞轮。

这里面有很多东西需要大家深度思考,比如基座模型,很多人问我们到底是开源好,还是闭源好,到底是国外好,还是国内好,我觉得其实合适才是最好。

火山引擎张鑫:企业落地大模型应用,关键要快速试错、敏捷行动

过去编程是从”Hello World”开始,现在开启AI之路,应该从”Hi Agent”开始。

正如狄更斯在《双城记》所说:“这是最好的时代,也是最坏的时代。” 张鑫认为,大模型带来了无限创新机会,但如果企业不能跟上敏捷速度迭代,也有可能面临失去竞争力。

张鑫提到,最近有一个新的感受:

企业想要落地一个好的AI应用时,他的挑战不是没有场景可做,反而是选择太多。

在我们看来打脸时刻怎么形成?不断打脸,最终才能知道哪个才是所谓的key APP。

HiAgent是火山引擎推出的企业专属AI应用创新平台,高度适配企业个性化需求,让业务人员可以轻松构建智能体,让业务创新不受生产技能的限制。提供低代码、场景化模版及端到端咨询服务,更懂AI转型;提供可与企业业务系统无缝衔接的行业插件,更灵活适配企业需求;支持 RAG 知识库和大模型全栈私有化部署,提供更强的安全保障,为企业数据知识保驾护航。

在具体落地实践上,张鑫也分享了火山引擎HiAgent在教育、消费、企业服务等多个行业的落地实践,并分享了切实可行的落地方法,第一步企业需要绘制企业专属的场景地图,这一步往往是发散的,最终得出上百种不同的应用场景。下一步对这些场景围绕可行性和价值高低进行一个魔力象限的划分。从高价值、技术高可行性的场景先着手推进。

企业落地大模型应用的关键在于快速试错、敏捷行动,火山引擎 HiAgent 平台通过固化最佳实践,助力企业高效搭建企业级智能体,在探索场景中沉淀资产,助力企业AI能力做深做厚。

斑头雁张毅:AI应用要能快速部署、高效迭代

张毅是原钉钉创始团队成员、副总裁,在钉钉任职期间,他从用 8 年的时间带领团队陆续打造出钉钉考勤审批、智能人士日志等爆款产品。

2022年起,张毅以BetterYeah AI(斑头雁)CEO&创始人的身份,带领团队躬身入局,开始致力于探索帮助企业进入AI时代。

时至今日,已经有数百家头部企业在斑头雁上完成了企业级生产级Agent的落地,涉及场景包括客服、数据、营销、经营系统等。张毅强调,客服场景落地速度最快,数据类任务增量价值明显,Agent融入企业核心经营系统趋势越来越显著,正在为企业直接供给生产力。

BetterYeah持续专注在企业生产场景,以标准化产品提供满足灵活集成能力、更大并发调用、更高数据安全和更复杂协同的AI Agent开发平台。今年往后,预计企业级AI平台将面临更复杂的应用场景和更强的自规划能力的挑战。

当谈及企业AI Agent成功的秘诀,张毅强调,生产级Agent开发70%的工作量在测试调试,基于数据和AI构建“反馈评估-自学习-验证”闭环,充分发挥AI价值,能有效提升Agent开发效率和成功率,而这些方法已产品化融入BetterYeah平台。

昆仑万维方汉:用产品形式上的创新击中用户的根本点

在探索过程中,方汉给出了他的一些商业思考。他认为所有人都在不断地思考AI大模型,在这中间企业选择什么样的商业模式来进行产品研发和推广,是一个很重要的问题。

方汉表示,中国AI企业在算力上受到极大限制,能拿到的硬件算力是比较有限的。这样会倒逼企业在算法迭代上有极大的动机去投入,就是所谓的以软补硬。同时生存压力大、拿不到钱也是一个大问题,“使得中国AI企业都在拼命地打磨产品的商业模式”。

他还讲到AIGC正在催生“文化平权”新时代,AIGC技术的进步会极大降低所有人创作内容的门槛和成本。

对于用户来说,他们根本不关心你的内容是AI做的还是人做的,只关心两个点,你的内容要么新,要么好。

最后方汉提出,AI创业者应更关注产品形态创新,用产品形式上的创新击中用户的根本点,而不是看AI用了多少。

心言集团任永亮:具身化与主动交互是泛心理服务的AI化新方向

谈到AI转型历程,任永亮坦言经历了从“震惊”到“担忧”再到“坚定”的心态转变。他认为一个行业既不能离AI太近也不能离得太远,关键是找准平衡点,“如果太远的话没办法用这样的服务,如果太近的话很容易被淹没”。

基于过去两年的实践,任永亮总结了三点感悟。

首先是期望管理。AI做到60分很容易,但要达到90分往往很难,需要管理好团队的预期。

其次是组织工程。AI转型不能依靠零敲碎打,而是要让整个组织围绕AI展开,包括产品、运营、技术等全方位转变。

最后是相信年轻人。移动互联网时代的成功经验未必适用于AI时代,没有束缚的年轻人更容易带来创新。

展望未来,任永亮提出了两个关键发展方向:

具身化是泛心理服务的必然趋势。咨询师除了文字语音,还需要表情动作、仪式感,这就要求AI服务也需要实现多模态输入输出。主动交互将成为下一个突破口。目前的AI服务都是响应式的,未来需要能够根据场景主动发问、展开对话。

具身智能圆桌:Way to AI Robots

MEET智能未来大会的老规矩,总是奉上精彩纷呈、干货疯狂输出的圆桌论坛,今年也不例外。

不过,本次大会讨论的主题升级到了更广泛、正热门的具身智能领域。

具身智能圆桌邀请的嘉宾分别是:

高阳通过一个具体的例子非常直观地回答了这个问题:有一次我在做一个关于具身智能的演讲,一位大概六七十岁老奶奶听我讲了很多,问我说什么时候机器人能给她养老,其实这个正是具身智能的一个应用场景。具身智能的目标是构建能够帮助我们完成各种任务的机器人,这个机器人能帮我们做各种事情,比如帮我们的爷爷奶奶养老。

李超认为云深处是具身智能的的第一批受益者。具身智能给机器人赋予灵魂,在这个灵魂加持下,机器人应变能力加强,规模化应用进展加速,能够面向更加开放的环境。

为什么今年是具身智能元年?

李超认为随着从基于规则的传统控制方式转变为基于训练、强化学习等新技术的出现与成熟,机器人的智能和适用性得以大幅提升,从而突破了过去的限制和边界。

高阳也表示,现在做具身智能创业的一个最关键的因素是OpenAI已经证明,预训练结合一系列post-training的方式,确实可以真的产生至少看起来像是人类智能,或者达到人类智能表象一样的能力。

唐睿做图形学出身,他指出,有了AI深度学习加成以后,算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向,由此导致并行计算的成本会降到很低。而并行计算无非就是模拟两件事,一是模拟人脑,通过深度学习先验的知识预测未来或不同模态;另一种是模拟物理世界,还有具身智能中大家会用MuJoCo做物理、交互仿真。而群核科技做的正是后者。

2024,产业里的代表性进展or事件?

唐睿关注到越来越多原本从事图形学和三维视觉研究的顶级学者与团队(如李飞飞、Leo Guibas、苏昊等),开始投身具身智能领域。他们凭借在虚拟世界和环境模拟方面的先天优势,为具身智能的发展注入新的动力与视角。

高阳最关注的进展在于如何利用互联网上的海量数据和中间层表示方法,将大模型预训练范式引入具身智能。这不仅包括像VLA(视觉-语言-动作)模型的成熟应用,还涉及通过引入轨迹表示、粒子模拟等中间层结构来减少对人工采集操作数据的依赖,从而在未来三到四年为具身智能的可持续发展奠定基础。

实践落地,数据是否是目前的关键挑战?

李超认为目前在他们关注的机器人本体与控制层面,数据并非主要挑战,但随着未来更复杂场景与操作需求出现,数据问题可能逐渐成为明年的挑战。

唐睿认为目前具身智能非常大的卡点是缺少高维的物理正确数据,而群核空间智能平台要做的事情就是为具身智能提供一个AI可交互世界,另外他强调了具身智能需要的真实物理模拟精度远高于纯视觉内容创作所需的精度。

他举例,像Sora这样的视频生成工具,目前虽能逼真再现视觉效果,却仍不足以提供精确的物理参数与交互反馈,从而难以直接满足具身智能的训练需求。这意味着在实现AGI级别机器人之前,如何获取高精度、具可交互性的模拟数据仍是一个需解决的关键问题。

具身智能是否有类似L0—L5的标准划分?

李超表示不仅有而且很明确,去年以前很多都是L1,准确说是L0,因为很多是由人在操控。而现在要分行业划分,在固定的小范围场景下可以达到L4,机器人能自主决策判断。

在高阳看来,制定一个标准,本意是为了促进一个行业的发展,可以去衡量每个具身智能技术到底达到了怎样的水平,但无论这个标准是什么样,可能最后因为客观技术的限制,这个标准到就变成了一个比较偏向宣传话术的东西,有限时间内大家做不到广泛场景的L4或L5的水平。

截至目前,具身智能走到了什么阶段?

唐睿将机器人各部分类比到人的“手、眼、脚、脑”四个核心的器官,分开来看每个部分都超越或接近人类,但尚未形成高度协调的一体化体系,因此整体仍处于早期阶段。高阳认为制定一个标准,本意是为了促进一个行业的发展,可以去衡量具身智能技术到底达到了怎样的水平,但无论这个标准是什么样,可能最后因为客观技术的限制,这个标准到就变成了一个比较偏向宣传话术的东西,有限时间内大家做不到广泛场景的L4或L5的水平。

李超更加乐观,他没有用类比的方法,而是认为具身智能已在工业等特殊场景中带来深刻改变,虽家用需求尚不明确,但在专业领域的实际应用已显现强大影响力,推动行业格局加速变化,展现出更乐观的发展前景。

最新文章
探讨十款高人气的电脑维护与优化工具
下面给大家推荐几款好用的免费的重装系统软件,有需要的小伙伴们来了解一下。系统重装专家官方版是一款方便易用的电脑重装软件。
百度百科词条可以随便编辑吗?谁都可以编辑吗?
很多用户会有这样的感觉,在百度上搜索某个人物名称或是某个企业名称,只要能搜出来百度百科词条就会下意识觉得这个人物或是企业
浅析访谈式课堂教学在干部培训中的应用
浅析访谈式课堂教学在干部培训中的应用中共温岭市委党校 陈周宁内容提要:干部教育是党校的核心工作之一。在新形势下,如何充分
Ubuntu16.04 下docker部署web项目
概念性的请戳安装完成之后默认会启动docker服务,如果没有启动和正常服务一样启动就好待续中·················
【面试】vivo-java开发-安卓方向-技术一面
【这里想说,因为自己也走了很多弯路过来的,所以才下定决心整理,收集过程虽不易,但想到能帮助到一部分自学java 的人,心里也
网站流量与率双提升,网络推广优化策略全解
网络推广优化旨在通过策略提升网站流量和率。关键包括:优化关键词,提高搜索引擎排名;优化网站结构,提升用户体验;运用社交媒
深入探讨床戏高峰瞬间的大尺度视频平台解析
触糖c1v1骨科是一种极具话题性的小说题材,通过探讨家庭和社会的复杂关系,引发读者的思考。在这一系列作品中,作者常常融入个人
珠三角最贵墓地每平米11万元 部分墓地限购
  每到清明,墓地价格和墓地存量就备受关注。眼看珠三角墓地价格年年水涨船高,到底哪里便宜哪里贵,各城还剩多少墓地可用?南
万能学术搜索引擎搭建-基于streamlit
万能超级搜索引擎V7.0(赚钱版)绝对是目前全国功能最优秀的超级搜索引擎之一全国已超过1000个网站和超过100家网吧正在使用本程序V
微信分身版ios免费版下载最新版
微信分身版ios免费版下载最新版是一款非常好用的社交聊天软件!我们手机上只能安装一个微信,这款软件可以同时让你安装多个。多