分享好友 最新动态首页 最新动态分类 切换频道
ChatGPT 里走不出具身智能,为什么?
2024-12-27 06:04

从语言智能,到空间智能。

ChatGPT 里走不出具身智能,为什么?

整理 | 曹思颀
编辑| 靖宇

2024 年,具身智能无疑是 AI 领域里最火热的新赛道之一。

相较于目前大语言模型在数字世界里带来的技术变革,具身智能描绘了通往未来世界的另一条路径:大量具有智慧的机器人出现在真实的物理空间中,通过参与到人类生产、生活的各个环节,改变人类的生活方式。

但和大语言模型可以利用海量互联网文本、图像资源进行快速学习不同,在具身智能领域里,机器人缺少低成本、高效率、多样性、可泛化的学习数据。

如果只基于 Transformer 架构的大语言模型(如 ChatGPT),人类无法实现具身智能。海量物理正确的训练数据如何快速获取,是迈向具身智能前的世界级难题。

13 年前,黄晓煌回国创业。回国前,他在美国伊利诺伊大学学习 GPU 计算,也在英伟达做过云计算。他一开始的创业方式,是希望用 GPU、云计算来做物理仿真,但在当时,极少有人可以理解 GPU 通用计算的价值。于是,黄晓煌用 GPU 进行光学仿真,并应用对家装场景里,把过往需要几十分钟的渲染提速到了 10 余秒,自此开始了群核科技的创业之路。

多年后,凭借着在家装渲染、工业 4.0 生产对接中积累的海量数据,在具身智能的技术巨浪袭来时,群核科技终于脱下「家装公司」的外壳,浮出水面。他们希望可以在数字世界和物理世界中间,搭起一道桥梁,通过海量可交互的、物理正确的三维数据,推动具身智能的发展。

以下是群核科技联合创始人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中,黄晓煌分享了群核科技的创业故事,以及他们对具身智能时代的思考。由极客公园整理。

01

ChatGPT 解决不了的「叠被子困境」

大家好,我是极客公园的老朋友,来自群核科技的黄晓煌。今天我介绍的主题是:如何让 AI 从数字世界走向物理世界。

大模型到来之后,所有人都想知道它能为我们做什么。我们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字,但她已经能很自然地对着各种镜子和屏幕喊「小度小度」或者「小爱同学」了。

但他们目前还只能跟虚拟人物进行沟通,我们更希望孩子们跟物理世界有更多互动,有真实的陪伴。可惜即便 AI 现在已经可以吟诗作画,但就算叠被子这么简单的家务,机器人都实现不了。

当我们谈到具身智能或者机器人的时候,「叠被子困境」是一个非常典型的场景。

目前的 ChatGPT 大语言模型,可以很容易地让机器人理解人类的指令,「给我叠一个被子」,它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好,但它很难执行。或者当它学会叠一床被子后,换个形状可能就又不会了。

机器人的大脑在数字世界里,但身体却在物理世界中。解决这类问题,最关键的是在物理世界和数字世界里面建立一个桥梁。而 ChatGPT 一类的大语言模型是无法实现的,我们需要一个全新的大模型。

让机器人正确理解物理世界,关键是要有海量可交互的三维数据。很多大语言模型都是根据互联网上的语料信息、图片或视频训练出来的,但这些内容只是一堆静态的记忆,训练出来的东西跟物理世界是相违背的。

这里有一个简单的例子,左边是由 Stable Diffusion 大模型生成的卧室场景,右边是由我们的矩阵 CAD 引擎生成的。乍一看都挺漂亮的,但左边这张存在多处物理不正确的地方:比如有的床头柜悬空、有的柜门无法打开。我们需要在大模型脑海里呈现右边这种内容,来指导真实的生产制造。

02

群核的创业之路:家装公司收到硅谷来信

说说我的个人经历吧。我一开始在美国伊利诺伊大学香槟分校学习 GPU 高性能计算;后来去英伟达做了 CUDA;回国后成立群核科技,做了 3D 云设计平台;现在又在关注具身智能。

经常有朋友问我,为什么你选择这样的创业路线?我想说,在中国创业没办法太阳春白雪,要脚踏实地跟着时代走。

刚开始创业的时候,我想用 GPU、云计算来做物理仿真。但是回国一看,发现当时投资圈热门的都是移动互联网、O2O,我所想做的项目根本融不到钱。跟投资人讲 GPU 通用计算,在那个年代几乎就是对牛弹琴,更不要提物理仿真了。

后来,我们想到了用 GPU 来做光学仿真,把原来需要几十分钟、一个小时的效果图渲染提速到了 10 秒钟,为家装设计师提速。这个「家装 OTO」的概念,很快成为了资本最推崇的项目,帮我们融到了很多资金,让酷家乐成功上线并成为了设计师首选的设计工具。

下一步,我们抓住了工业 4.0 改革里,传统工厂打造柔性生产线的需求,用我们的数据帮助工厂进行升级。我们用物理仿真、数字孪生,把每一件商品拆解成一个个零件,通过流水线机器人以及传送带实现柔性生产。

但这依然不够,因为这些工厂里所有的机械臂都是没有智慧的。你告诉它往左就往左、往右就往右,机械臂是没有智能的。一旦进行微小的改动,所有一切都要重来。所以,现在的无人工厂实际上还不是真正的无人工厂。

那段时间我非常苦恼,但我们已经见识到了物理正确数据的价值。直到有一天,我看到马斯克提出用人形机器人在工厂生产汽车,就觉得工业 4.0 的下一步是把流水线机器人变成人形机器人。我觉得这是未来,而群核科技就是这些所有机器人训练的「道场」。

这些年我们做 3D 云设计平台,尽管路径一些曲折,但也积累了海量的三维数据:3.2 亿个 3D 模型、不计其数的物理正确的三维场景、月活接近 8000 万,服务了 200 多个国家和地区。我们在这个过程中始终相信,物理正确的空间数据是可以用来训练大模型的,我们的科研人员也一直在训练,在等待一个机会。

2018 年,我们的科研人员跟帝国理工、南加州大学共同发布了一个室内智能数据集方案。这是当时全球最大的室内场景认知深度学习数据集,一下子在学术界很热。

有一天,我们收到了一封硅谷最大公司的邮件,希望跟我们进行空间智能的合作。当然我们甚至怀疑是骗子。几万亿美元的大公司,怎么会找一家创业公司合作空间智能。但这的确是真的。在合作的过程中,我们发现了这些大公司在解决了算力、算法问题之后,他们面临的问题是,缺少海量的、可交互的、物理正确的三维数据。

我们跟目前全球这个领域最靠前的公司基本都达成了合作。这两年,中国的空间智能、具身智能也爆发式地增长,我们也跟国内头部公司达成了合作。这个时候,我觉得技术奇点到来了,我们的机会也来了。

03

具身智能的世界级难题:数据

我们发现,现在不管是空间智能还是具身智能,有四个最关键的问题需要解决:算法、算力、数据、机器人硬件。

算法层面,目前是百花争鸣的状态,有非常多算法。

算力层面,国外以英伟达为代表,国内也有地平线等公司在快速地解决这个问题。我觉得算力已经过了技术的奇点,可以支撑人造的智慧了。

机器人硬件层面,中国更是独霸全球。

而目前世界级难题的是:如何给机器人提供用来训练的可交互的数据?这就是我们要去解决的。

目前用来训练具身智能的方式,主要有两种

第一种,以斯坦福大学的 Moblile Aloha 为代表,它通过用设备来采集人在物理空间中的动作,来训练机器人。但是它的采集成本非常高,而且空间非常受限。

第二种,也是目前学术界比较火热的,通过仿真数据来做机器人的训练。目前新一代的算法论文都是基于这个逻辑,李飞飞的文章也都是这个逻辑。因为它才真正可以实现在海量的空间里面做物理训练,让机器人能够拥有足够多的适应性。

相比真实的训练环境,仿真训练主要有以下四个巨大的优势

第一,低成本。假如用一个真实的空间训练一个机器人,那么每训练一个场景都要盖一个真实的房间,那这个成本实在太高了。

第二,高效率。在物理世界里,时空是确定的。如果训练一个机器人需要 1 天,那么训练 1 万次就得 1 万天,时间没有办法压缩。但在数字世界里,时间是可以被压缩的,物理世界里要用 1 万天跑完的数据,数字世界里也许 1 天就可以跑完。

第三,多样性。在现实世界里面,要找到各种各样不同场景是非常困难的。如果我们想训练一个机器人去火星上帮人类干活,但没有办法先把一堆设备送到火星上去提前训练。合成数据解决了多样性问题。

第四,可泛化性。李飞飞发表的文章里提到了「数字表亲」的概念,可以生产类似的场景进行训练,从而实现举一反三。否则我们训练出来的机器人只能在一模一样的房间里干活,离开了那个房间,还是啥都不会。

那么,群核科技的核心优势是什么?我们为什么能一起参与这个有意思的征程呢?

我们通过多年的 3D 云设计平台,积累了海量数据,用这些数据训练了自己 CAD 的大模型。这些大模型可以阅读人类的 CAD 文件、图片、手绘等,然后把这些内容再转换成物理正确的空间场景。我们也自建了 1 万多台高性能计算服务器,专门用来训练、推理、渲染。我们希望用物理正确的合成数据,来帮助所有具身智能的机器实现训练。

今年,我们推出了新版本的 SpatialVerse 来赋能 AI 空间智能。因为传统的三维数据太「干净」了,没有办法直接用来训练机器人。我们需要 AI 对这些原始的数据进行物理增强:告诉机器人哪里是抽屉可以打开,可以打开多少程度;物体的重力是多少;哪里是门可以打开,是往里开还是往外开等等。

其次,在机器人训练的时候需要有各种语义信息在里面,过去都是人工标注,现在要用 AI 给它自动标注好。

另外,环境加强也很重要。我们平常人生活的环境不是像 3D 世界里面那么纯净的,包括你的房间里面有纸巾、有动物的毛发等,但是在数字世界里没有,你要把它以某种方式加回去,让一个空间不是一个纯净的空间,它需要更接近于真实的空间。

最后是隐私问题。前阵子全球最著名的公司之一被曝出在采集物理数据的时候,不小心拍到了房屋主人上厕所的视频。合成数据就没有这个问题,它不会涉及到人类隐私的问题。

我们今年和上海人工智能实验室一起发布了具身智能训练的新范式,多模态的 3D 数据解决方案,就是大规模的动态场景生成,渲染+物理真实感以及高分辨率的场景分割。这里面的空间场景都是基于我们 SpatialVerse 的解决方案。

我以上展示的这些肯定不是空间智能、具身智能的全部,它只是开始。具身智能还会进入到我们更多的场景,除了在我们工厂里面工作,还会进入到我们的商业空间里、办公室里,家庭里。未来,我们的生活场景里面会充满了空间智能、具身智能的机器人。

当然,所有的使用场景都需要丰富的物理正确的三维数据给它们训练,因为大家不希望一个没有训练过的机器人在你家里面。一个 300 公斤重的机器人,万一发起疯来,谁都受不了,所以我们得确保它在足够多的空间里训练过,才能够进入到我们工作生活的环境里,这是非常重要的。

我相信未来肯定是具身智能、空间智能的时代,我相信从生产制造再到商业空间再到我们家庭场景,它会充斥到我们每一个角落,就像叠被子那一刻被机器人完美地解决了之后,机器人就会解决我们日常生活中各种各样所需要的问题,我也希望群核科技能够成为中间重要的推力之一。

欢迎各位小伙伴跟群核一起走向技术的彼岸。

*头图来源:极客公园

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

想看国际最先进水平的 AI 公司如何看待 AI 吗?想看最火的机器人公司怎么展望未来吗?想看最有调性的科技公司怎么在这个时代做产品吗?好险!差点就错过他们的分享了!

12 月 19 日(周四) 13:30,极客公园创新大会 2025 直播进行时!锁定视频号直播间,2025 年科技趋势全部都有!

最新文章
简短夸奖人优秀的文案(精选30句)
1、你看你不是能够做的很棒吗!2、蒹葭苍苍,白露为霜。所谓伊人,在水一方。3、你做事思路清晰,脑子很灵活。4、你真的很能干哦!5、我好爱你啊!6、你越来越成熟了,我发现从此以后一秒也不能离开你了。7、你做的非常好!8、你总是说话得
SEO专业网站如何进行国际化优化
将网站的内容翻译成不同语言是国际化优化的基础。除文字内容的翻译,还要注意图片、视频等多媒体内容的本地化处理,确保使用者可以顺畅地浏览和理解网站信息。在进行内容本地化时,需要注意语言的习惯用法、文化差异等因素,避免生涩或不恰当的
河北网站排名优化服务,提升网站竞争力的关键策略,河北网站优化公司
河北网站排名优化服务致力于提升网站竞争力,通过关键词研究、内容优化、链接建设等策略,提高网站在搜索引擎中的排名。选择专业的河北网站优化公司,能够为企业提供量身定制的SEO解决方案,包括网站结构优化、内容创作、外部链接建设等,
江苏银行信用卡:坚持走好数字化转型创新与实践之路
作者江苏银行零售信贷部随着科技发展和消费者行为的变化,信用卡行业正经历一场深刻的数字化转型变革。大数据、云计算、AI等科技手段更广泛的应用,为区域性银行信用卡业务带来新的挑战与发展机遇。近年来,江苏银行始终坚持特色发展、内生
视频号广告投放实战攻略丨广点通一级代理商
2019年08月01日庄均琪100小红书,视频号全域通ADQ,巨量千川,巨量AD,磁力金牛,B站,百度,360搜索,本地生活推广,本地推等业务网络技术的研究、开发;广告业;软件服务;软件测试服务;软件批发;软件零售;软件开发;计算机技术开发、技术服
网站seo和sem的关联与区别有什么不同
网站seo和sem的关联与区别有什么不同网站SEO优化和SEM优化是网络营销中两个不同的概念,但是它们之间有一些区别和联系。SEO和SEM的区别:效果:SEO注重长期的搜索引擎优化,通过改进网站的内容、结构、标题和关键词等来提高网站在搜索引擎
论文写作和排版流程
目录一、论文撰写基本流程 二、撰写技巧和方法 三、word排版技巧    选题具有创新性,前瞻性,普适性 ······     选题流程:1.提出问题(将兴趣问题转换为研究课题?)    1、制定计划&#x
陕西百度网站推广优化攻略,高效营销新思路
本文深入剖析陕西百度网站推广优化策略,从关键词布局、内容优化、站外链接建设等方面提供实操指导,助力企业实现高效营销,提升品牌影响力。随着互联网的飞速发展,越来越多的企业开始重视网络营销,而百度作为国内最大的搜索引擎,其广告
百度站内搜索申请设计_百度站内搜索url设计教程
摘要:百度站内搜索申请设计,百度站内搜索url设计教程,新片场素材小编王辰百度站内搜索申请设计,百度站内搜索url设计教程相关内容整理,如果您对百度站内搜索申请设计,百度站内搜索url设计教程感兴趣欢迎访问免费阅读。百度站内搜索申请设
淘客创业秘籍:解锁服务费、程序APP与引流策略,打造专属返利帝国!
:在电商浪潮中,淘客作为连接消费者与商家的重要桥梁,正以其独特的商业模式吸引着无数创业者的目光。本文将深入探讨淘客服务费的计算逻辑、淘客程序APP的核心价值、高效引流方法以及如何定制开发淘客联盟平台和店铺淘客软件,为有志于淘客
相关文章
推荐文章
发表评论
0评