2024智源大会议程公开丨多模态模型最新进展

2024智源大会议程公开丨多模态模型最新进展

2024-12-26 15:24

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。

北京智源大会倒计时：7 天

多模态模型论坛丨6月15日上午

随着GPT-4、Gemini等大模型在多模态上的发力，多模态已成为目前大模型发展前沿方向。多模态更符合人类接收、处理和表达信息的方式，同时处理文本、图片、音频及视频等多类信息，与现实世界融合度高，有望成为人类智能助手，推动AI迈向AGI。为此，本次论坛邀请了来自学术界与工业界的七位优秀讲者，分别针对各自擅长的研究议题进行报告，并且将在报告后通过圆桌形式对于若干公众所关注的问题进行深入讨论，使得听众们能够对于多模态关键技术有更为深刻的认识与理解。

论坛议程

论坛主席

沈春华，浙江大学求是讲席教授，智源学者

沈春华，浙江大学求是讲席教授、计算机辅助设计与图形系统全国重点实验室副主任、入选教育部长江学者奖励计划。沈春华本科和硕士均毕业于南京大学，于2005年在阿德莱德大学获得计算机视觉博士学位。2006年至2011年在澳洲国立大学和 National ICT Australia 任职研究员。2011 年回到阿德莱德大学任教，同年入选 Australian Research Council Future Fellowship 人才计划，2014年破格晋升为阿德莱德大学计算机科学系正教授。2021 年底回国全职加入浙江大学。他的谷歌学者引用达71800，H-index 125。

王鑫龙，智源研究院视觉模型研究中心负责人

本科毕业于同济大学，博士毕业于澳大利亚阿德莱德大学，师从沈春华教授。他的研究兴趣是计算机视觉和基础模型，近几年研究工作包括视觉感知（SOLO, SOLOv2），视觉表征（DenseCL, EVA），视觉上下文学习（Painter, SegGPT），多模态表征（EVA-CLIP, Uni3D），多模态上下文学习（Emu, Emu2）。入选Google PhD Fellowship、国家海外高层次青年人才。

演讲主题及嘉宾介绍（按照发言先后顺序）

1、生成式多模态模型

报告简介：人类具备在上下文中轻松解决多模态任务的能力（即，只需少量示例或简单指令），这是当前多模态系统难以模仿的。大语言模型展现了生成式预训练带来的强大语言能力，然而对于复杂多样的多模态任务仍显局限。这个报告将介绍大规模生成式多模态模型，使得我们能够以统一模型完成多模态感知和生成任务。重点介绍多模态生成式预训练和多模态上下文学习的最新技术，旨在提升模型在多模态上下文中解决复杂感知和生成任务的能力。

王鑫龙，智源研究院视觉模型研究中心负责人

2、AI是否需要更强的视觉基础来实现理解和意义？

报告简介：尽管更强大的语言模型极大提升了多模态模型的能力，视觉基础组件的设计，特别是视觉表征学习，在新时代下需要进一步探索和创新。本报告介绍了我们在多模态基础模型方面的最新研究工作。我们首先探讨了多模态大型语言模型在视觉方面的缺陷，随后讨论了如何通过更优越、更精确的视觉基础来增强这些模型的性能。我们的方法将视觉自监督学习、视觉搜索和System II推理等机制结合到多模态大型语言模型中。通过整合视觉搜索算法，我们使大型语言模型能够在视觉信号中识别相关信息，并更有效地与现实世界数据交互。此外，我们通过可操作的环境将大型语言模型与现实生活体验联系起来，进一步丰富其感知基础。我们将讨论未来在以视觉为中心的多模态研究中的机遇和挑战，探讨如何使大型语言模型以更现实和有意义的方式理解和交互感知丰富的世界。

谢赛宁，纽约大学助理教授

谢赛宁，纽约大学柯朗数学科学研究所及纽约大学数据科学中心计算机科学助理教授，谷歌研究院访问学者。在2023年加入纽约大学之前，他是Meta的FAIR研究院研究科学家。2018年，他获得了加州大学圣地亚哥分校的计算机科学博士学位，博士生导师屠卓文教授。在此之前，他获得了上海交通大学ACM班的学士学位。他的研究领域是计算机视觉和机器学习，特别是可扩展的视觉表征学习，视觉生成与理解。他的研究论文总引用5万余次，曾获得马尔奖荣誉提名、CVPR最佳论文Finalists以及亚马逊研究奖等。

3、多模态基础模型研究

报告简介：在我们迅速发展的数字世界中，机器理解、解释和创造内容的能力是一个引人入胜的关键主题。今天，我们正见证一个非凡的时代，大型基础模型不仅仅是处理信息，它们正在学习理解和生成具有惊人精度和创造力的复杂语言和图像内容。多模态基础模型，正在重塑我们对人工智能能力的理解。这些模型无缝集成了多种形式的数据，如文本和视觉，它们不仅仅是工具，而是合作伙伴，增强人类的创造力，扩展机器能够实现的领域。在这次报告中，我们将探索这些模型的复杂工作原理，并报告我们研究团队在这个方向上的最新进展。我们将穿越语言和图像的领域，理解这些模型如何理解我们和我们的世界。

代季峰，清华大学电子工程系副教授，上海人工智能实验室领军科学家

代季峰，清华大学电子工程系副教授，博士生导师，上海人工智能实验室领军科学家。在2009年和2014年于清华大学自动化系分别获得工学学士和博士学位，博士导师周杰教授。2014年至2019年在微软亚洲研究院视觉组工作，担任首席研究员、研究经理。2019年至2022年在商汤科技研究院工作，担任执行研究总监。2022年7月全职加入清华大学电子工程系。他的研究兴趣包括计算机视觉、深度学习等。他在相关领域发表国际期刊、会议文章80余篇，论文总引用4万余次。以可变形卷积为代表的多篇论文被选入深度学习权威框架PyTorch成为标准算子，在物体识别领域有较大影响力。他连续两年获得物体识别领域权威的COCO比赛冠军，之后历届冠军系统也使用了他提出的算法。他提出的算法获得自动驾驶感知领域权威的Waymo 2022竞赛冠军，获得CVPR 2023最佳论文奖。他是视觉领域顶刊IJCV的编委，和视觉领域顶会NeurIPS , ICCV，CVPR，ECCV, ICLR的领域主席，ICCV 2019的宣传主席。

4、A Real-World Approach to Intelligence

报告简介：In the current AI landscape, large language models pre-trained on web-scale data have taken center stage. This raises a natural question: is a language-first approach the only path forward for AI? In this talk, I will present my previously published works that offer an alternative by adopting a "real-world first" approach. These works introduce large vision and robotic foundation models, which naturally handle multi-modal inputs and exhibit strong generalizability and robustness in real-world applications.

肖特特，Prompt AI联合创始人兼CEO

Tete Xiao is the Co-Founder and CEO of Prompt AI. He earned his Ph.D. from the Department of Computer Science at the University of California, Berkeley, in 2019, and has spent time conducting research at Facebook AI Research. Prior to his doctoral studies, he received a BSc in Intelligence Science, summa cum laude, from Peking University in 2015. Dr. Xiao's work in the fields of computer vision and robotics has been published in major journals and conferences, including Science Robotics, CVPR, ICCV, ECCV, ICLR, and NeurIPS, with his paper receiving awards at ICCV 2023. Currently, Dr. Xiao is working alongside a dedicated and talented team to bring state-of-the-art visual AI technologies to the general public.

5、圆桌讨论：Multimodal Perception and Generation

圆桌讨论嘉宾：

谢赛宁丨纽约大学助理教授

肖特特丨Prompt AI联合创始人兼CEO

代季峰丨清华大学电子工程系副教授，上海人工智能实验室领军科学家

沈春华丨浙江大学求是讲席教授，智源学者（线上）

Aditya Ramesh丨OpenAI研究员（线上）

余家辉丨OpenAI研究员（线上）

王鑫龙丨智源研究院视觉模型研究中心负责人（主持人）

余家辉，OpenAI Perception team负责人

余家辉，现任OpenAI Perception team（感知团队）负责人。在此之前，曾是Google DeepMind Gemini项目多模态的负责人。在伊利诺伊大学厄巴纳-香槟分校获得博士学位，师从Thomas Huang教授，此前在中国科学技术大学少年班获得计算机科学专业的学士学位。研究领域包括序列建模（语言、语音、视频、金融数据）、计算机视觉、生成模型和高性能计算。

即刻扫码注册，参与大会报名

本届大会采用线下与线上模式融合，报名通道已开启，欢迎扫码免费注册。由于线下席位有限，请尽早完成注册，组委会将根据注册次序审核，并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

大会合作、咨询、赞助欢迎联系：press@baai.ac.cn