白小交 发自 凹非寺
量子位 | 公众号 QbitAI
我们无法忽视世界是三维的,解决三维智能是根本性的。
李飞飞最新采访来了,继续延伸她在NeurIPS有关视觉智能的话题。
她表示,解决空间智能问题是迈向全面智能化的基础和关键一步。
何恺明竟然探讨起了AI宿命论???
来来来,来看看一个吃瓜汇总。
李飞飞180页PPT谈视觉智能
采访实录:
Q:为什么演讲题目是“攀登视觉智能的阶梯(Ascending the Ladder of Visual Intelligence)”?
Q:你的意思是说,我们会对某些景象做出本能的反应?
李飞飞:我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化,就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智力的发展。如果你不能感知环境,你与世界的关系就会非常被动;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增强,从而推动智力向前发展。
Q:你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多的环境?
李飞飞:我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为,解决空间智能问题是迈向全面智能化的基础和关键一步,这是绝对正确的。
Q:我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界?
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题,并将其与做事联系起来,那么有一个极其简单、一目了然的事实:世界是三维的。我们生活的世界不是平面的。我们的物理Agent,无论是机器人还是设备,都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们是在虚拟世界中工作,其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实,那么毫无疑问,解决3D智能问题就是根本所在。
一旦你尊重了世界的三维性,很多事情就自然而然地发生了。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是三维的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。
Q:或者,就像Sora中那样,它可能会去到某个地方,但随后就消失了。在你尝试推进这项技术的过程中,最大的技术挑战是什么?
李飞飞:没有人解决过这个问题,对吧?这非常非常难。在世界实验室的演示视频中,你可以看到我们将一幅梵高的画作,以一致的风格生成了它周围的整个场景:艺术风格、灯光,甚至是那个社区会有什么样的建筑。如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了,对吗?它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。
Q:你能说说你用来训练它的数据吗?
李飞飞:很多。
Q:你们在计算负担方面遇到过技术挑战吗?
李飞飞:计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假,以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。
知识的发现需要资源的支持,对吧?在伽利略时代,是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜,发现了细胞。每一次新技术工具的出现,都有助于知识的探寻。而现在,在人工智能时代,技术工具涉及计算和数据。我们必须认识到这一点。
Q:假设我们能让人工智能系统真正理解三维世界,这会给我们带来什么?
李飞飞:它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道,许多医疗用途都涉及到理解一个非常特殊的三维世界,那就是人体。我们总在谈论未来人类将创造机器人来帮助我们,但机器人是在三维世界中航行的,它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界,它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术,尤其是混合技术,也就是我们所说的 AR(增强现实技术)。我很想戴着一副眼镜在国家公园里漫步,它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。
Q:什么样的技能?
李飞飞:我举个蹩脚的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜,看到我的车发生了什么,然后在指导下完成这个过程,那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪,可以考虑雕刻—有趣的事情。
Q:你认为我们在有生之年能在这方面取得多大进展?
李飞飞:哦,我认为这将在我们有生之年实现,因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。
今年NeurIPS好热闹
NeurIPS整个会议期间,可以说是好不热闹。
比如,Bengio和OpenAI的人吵起来了。
据在场的人爆料,在今年因果关系小组讨论中,OpenAI o1的主创表示,我们最终应该训练Agent来优化对世界的理解,来解决科学问题。
Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕!他们表示不应该制造这样强大的Agent,还有其他方法可以增强人类的能力,并进行科学研究,比如让模型学习因果图。
而就在刚才,Bengio还进一步回应了,再次强调了AI Agent潜在的风险。
据热心网友们的爆料,他是在被问到AI属于发明还是发现的时候。
据小红书网友爆料,他提到一个有意思的观点,他将人类比作大模型的传感器:
参考链接:
[1]https://spectrum.ieee.org/fei-fei-li-world-labs
[2]https://x.com/connoraxiotes/status/1866921924703498412
[3]https://x.com/kyliebytes/status/1866987524805234785
[4]https://www.xiaohongshu.com/explore/6759be860000000001029429
[5]http://xhslink.com/a/IFIoiN1IoRy1