分享好友 最新动态首页 最新动态分类 切换频道
2024智源大会议程公开丨多模态模型最新进展
2024-12-26 15:24

2024年6月14日-15日第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研究者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。

北京智源大会倒计时:7 

多模态模型论坛丨6月15日上午

随着GPT-4、Gemini等大模型在多模态上的发力,多模态已成为目前大模型发展前沿方向。多模态更符合人类接收、处理和表达信息的方式,同时处理文本、图片、音频及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动AI迈向AGI。为此,本次论坛邀请了来自学术界与工业界的七位优秀讲者,分别针对各自擅长的研究议题进行报告,并且将在报告后通过圆桌形式对于若干公众所关注的问题进行深入讨论,使得听众们能够对于多模态关键技术有更为深刻的认识与理解。

论坛议程

论坛主席

沈春华,浙江大学求是讲席教授,智源学者

沈春华,浙江大学求是讲席教授、计算机辅助设计与图形系统全国重点实验室副主任、入选教育部长江学者奖励计划。沈春华本科和硕士均毕业于南京大学,于2005年在阿德莱德大学获得计算机视觉博士学位。2006年至2011年在澳洲国立大学和 National ICT Australia 任职研究员。2011 年回到阿德莱德大学任教,同年入选 Australian Research Council Future Fellowship 人才计划,2014年破格晋升为阿德莱德大学计算机科学系正教授。2021 年底回国全职加入浙江大学。他的谷歌学者引用达71800,H-index 125。 

王鑫龙,智源研究院视觉模型研究中心负责人

本科毕业于同济大学,博士毕业于澳大利亚阿德莱德大学,师从沈春华教授。他的研究兴趣是计算机视觉和基础模型,近几年研究工作包括视觉感知(SOLO, SOLOv2,视觉表征(DenseCL, EVA,视觉上下文学习(Painter, SegGPT,多模态表征(EVA-CLIP, Uni3D,多模态上下文学习(Emu, Emu2)。入选Google PhD Fellowship、国家海外高层次青年人才。

演讲主题及嘉宾介绍(按照发言先后顺序

1、生成式多模态模型

报告简介人类具备在上下文中轻松解决多模态任务的能力(即,只需少量示例或简单指令,这是当前多模态系统难以模仿的。大语言模型展现了生成式预训练带来的强大语言能力,然而对于复杂多样的多模态任务仍显局限。这个报告将介绍大规模生成式多模态模型,使得我们能够以统一模型完成多模态感知和生成任务。重点介绍多模态生成式预训练和多模态上下文学习的最新技术,旨在提升模型在多模态上下文中解决复杂感知和生成任务的能力。

王鑫龙,智源研究院视觉模型研究中心负责人

2、AI是否需要更强的视觉基础来实现理解和意义

报告简介尽管更强大的语言模型极大提升了多模态模型的能力,视觉基础组件的设计,特别是视觉表征学习,在新时代下需要进一步探索和创新。本报告介绍了我们在多模态基础模型方面的最新研究工作。我们首先探讨了多模态大型语言模型在视觉方面的缺陷,随后讨论了如何通过更优越、更精确的视觉基础来增强这些模型的性能。我们的方法将视觉自监督学习、视觉搜索和System II推理等机制结合到多模态大型语言模型中。通过整合视觉搜索算法,我们使大型语言模型能够在视觉信号中识别相关信息,并更有效地与现实世界数据交互。此外,我们通过可操作的环境将大型语言模型与现实生活体验联系起来,进一步丰富其感知基础。我们将讨论未来在以视觉为中心的多模态研究中的机遇和挑战,探讨如何使大型语言模型以更现实和有意义的方式理解和交互感知丰富的世界。

谢赛宁,纽约大学助理教授

谢赛宁,纽约大学柯朗数学科学研究所及纽约大学数据科学中心计算机科学助理教授,谷歌研究院访问学者。在2023年加入纽约大学之前,他是Meta的FAIR研究院研究科学家。2018年,他获得了加州大学圣地亚哥分校的计算机科学博士学位,博士生导师屠卓文教授。在此之前,他获得了上海交通大学ACM班的学士学位。他的研究领域是计算机视觉和机器学习,特别是可扩展的视觉表征学习,视觉生成与理解。他的研究论文总引用5万余次,曾获得马尔奖荣誉提名、CVPR最佳论文Finalists以及亚马逊研究奖等。

3、多模态基础模型研究

报告简介在我们迅速发展的数字世界中,机器理解、解释和创造内容的能力是一个引人入胜的关键主题。今天,我们正见证一个非凡的时代,大型基础模型不仅仅是处理信息,它们正在学习理解和生成具有惊人精度和创造力的复杂语言和图像内容。多模态基础模型,正在重塑我们对人工智能能力的理解。这些模型无缝集成了多种形式的数据,如文本和视觉,它们不仅仅是工具,而是合作伙伴,增强人类的创造力,扩展机器能够实现的领域。在这次报告中,我们将探索这些模型的复杂工作原理,并报告我们研究团队在这个方向上的最新进展。我们将穿越语言和图像的领域,理解这些模型如何理解我们和我们的世界。

代季峰清华大学电子工程系副教授,上海人工智能实验室领军科学家

代季峰,清华大学电子工程系副教授,博士生导师,上海人工智能实验室领军科学家。在2009年和2014年于清华大学自动化系分别获得工学学士和博士学位,博士导师周杰教授。2014年至2019年在微软亚洲研究院视觉组工作,担任首席研究员、研究经理。2019年至2022年在商汤科技研究院工作,担任执行研究总监。2022年7月全职加入清华大学电子工程系。他的研究兴趣包括计算机视觉、深度学习等。他在相关领域发表国际期刊、会议文章80余篇,论文总引用4万余次。以可变形卷积为代表的多篇论文被选入深度学习权威框架PyTorch成为标准算子,在物体识别领域有较大影响力。他连续两年获得物体识别领域权威的COCO比赛冠军,之后历届冠军系统也使用了他提出的算法。他提出的算法获得自动驾驶感知领域权威的Waymo 2022竞赛冠军,获得CVPR 2023最佳论文奖。他是视觉领域顶刊IJCV的编委,和视觉领域顶会NeurIPS , ICCV,CVPR,ECCV, ICLR的领域主席,ICCV 2019的宣传主席。

4、A Real-World Approach to Intelligence

报告简介In the current AI landscape, large language models pre-trained on web-scale data have taken center stage. This raises a natural question: is a language-first approach the only path forward for AI? In this talk, I will present my previously published works that offer an alternative by adopting a "real-world first" approach. These works introduce large vision and robotic foundation models, which naturally handle multi-modal inputs and exhibit strong generalizability and robustness in real-world applications.

肖特特,Prompt AI联合创始人兼CEO

Tete Xiao is the Co-Founder and CEO of Prompt AI. He earned his Ph.D. from the Department of Computer Science at the University of California, Berkeley, in 2019, and has spent time conducting research at Facebook AI Research. Prior to his doctoral studies, he received a BSc in Intelligence Science, summa cum laude, from Peking University in 2015. Dr. Xiao's work in the fields of computer vision and robotics has been published in major journals and conferences, including Science Robotics, CVPR, ICCV, ECCV, ICLR, and NeurIPS, with his paper receiving awards at ICCV 2023. Currently, Dr. Xiao is working alongside a dedicated and talented team to bring state-of-the-art visual AI technologies to the general public.

5、圆桌讨论:Multimodal Perception and Generation

圆桌讨论嘉宾

谢赛宁丨纽约大学助理教授

肖特特丨Prompt AI联合创始人兼CEO

代季峰丨清华大学电子工程系副教授,上海人工智能实验室领军科学家

沈春华丨浙江大学求是讲席教授,智源学者(线上

Aditya Ramesh丨OpenAI研究员(线上

余家辉丨OpenAI研究员(线上

王鑫龙丨智源研究院视觉模型研究中心负责人(主持人

余家辉,OpenAI Perception team负责人

余家辉,现任OpenAI Perception team(感知团队)负责人。在此之前,曾是Google DeepMind Gemini项目多模态的负责人。在伊利诺伊大学厄巴纳-香槟分校获得博士学位,师从Thomas Huang教授,此前在中国科学技术大学少年班获得计算机科学专业的学士学位。研究领域包括序列建模(语言、语音、视频、金融数据)、计算机视觉、生成模型和高性能计算。

即刻扫码注册,参与大会报名

本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

大会合作、咨询、赞助欢迎联系:press@baai.ac.cn

最新文章
这一抹红色,是从未忘却的纪念
它是飘落在地球上的一根红飘带是贵州旅游打卡的新地标它是什么?全国首个以长征为主题的全域行浸式数字科技体验馆“红飘带”项目9259如果奇迹有颜色那一定是中国红那,这样的红色你见过吗?它取自赤水河边的泥岩之色象征长征的艰辛历程和革
百度推广和安全联盟认证已被取消,现为百度信誉V认证
目前,在百度搜索框中输入某些关键词并搜索到一些自然网站排名时,把鼠标移动到百度推广蓝色V认证上面,发现没有显示百度推广身份认证和安全联盟认证字样,而是显示V已经通过百度信誉认证。由此看来,百度已经将百度推广认证和安全联盟认证
抖音信息流和内容热推的区别?抖音信息流价格分析软件
抖音广告投放策略比较:信息流和内容热推摘要:抖音作为当前流行的短视频平台,广告投放已经成为企业推广的重要手段。其中,信息流和内容热推是两种主要的广告投放策略。本文将从四个方面详细对比这两种策略的特点和应用场景,帮助企业更好
外贸SOHO建站报价——建个个人外贸网站多少钱
很多外贸SOHO和企业都需要建立外贸网站作为品牌推广的重要平台。因此,如果我们想知道建立一个外贸网站的价格,开发外贸网站Ueeshop可以跟大家一起看看都包含了哪一些内容。对于需要建立外贸网站的用户来说,他们可以看到很多不同的价格,
松鼠AI智能学习机:高效全科辅导新选择
松鼠AI智能学习机是一款高效全科辅导新选择,它结合了人工智能技术和教育知识体系,可以帮助学生自主学习、提高学习效率。松鼠AI智能学习机拥有多种学科的课程,包括语文、数学、英语、科学等,覆盖了小学到初中各年级的内容。学生可以根据
语音直播聊天系统开发(APP、公众号、小程序)
2015年01月15日潘锦霖系统开发,软件开发,APP开发,源码搭建,定制软件,社交电商,云电商,新媒体电商,O2O,F2C,B2C,B2B2C,F2B2C,C2B,B2C2N,S2B2C,微商城,App,手机网页,PC商城,小程序,微商管理系统,扫码红包,质量追溯,分销系统, 全返系统,分红系
用AI轻松生成超逼真美女写真,这款工具你一定要试!
在这个科技飞速发展的时代,AI生成技术的应用已经渗透到我们生活的各个角落。尤其是在摄影和艺术创作领域,AI工具带来了前所未有的便捷与可能性。想象一下,不用外出,只需要在你的手机或电脑屏幕前,就可以生成各类超逼真的美女写真,不再
魅族Lucky 08:性能强劲,拍照专业,千元机中的佼佼者
在当今智能手机市场,AI技术已成为各大品牌竞相追逐的焦点。魅族Lucky 08 AI手机,凭借其独特的AI功能和卓越的硬件配置,迅速成为市场上的热门话题。这款手机不仅在AI应用上有所创新,更在续航、屏幕显示和摄影等方面表现出色,为用户带来
精美PHP导航收录网站源码-QQ技术导航程序源码
划算本站会员的9大好处?1.发布的源码/资源,都已经经过本站/其他站长/用户大部分亲测可使用,质量极高!2.本站只发布合法内容,从不发布违法内容,服务器以续费5年,网站安全长久不跑路!3.本站整合了多个网站的永久高级会员,开通本站会
探讨数学与AI的奇妙碰撞:2024中国人工智能大会即将召开
即将于2024年12月13日至15日在北京举行的2024中国人工智能大会(CCAI 2024),将以“创新驱动智启新程”为主题,汇聚了数学与人工智能领域的重量级专家,其中包括丘成桐院士、戴琼海院士、林文伟教授等重量级嘉宾,他们将展开一场关于“AI
相关文章
推荐文章
发表评论
0评