分享好友 最新动态首页 最新动态分类 切换频道
AI训练的新数据或将枯竭,合成数据能否解围?|DeepTalk播客更新Vol.14
2024-12-27 04:33

来源:DeepTech深科技

AI训练的新数据或将枯竭,合成数据能否解围?|DeepTalk播客更新Vol.14

就在上周五的 NeurIPS 上,OpenAI 的前首席科学家 Ilya Sutskever 在他的分享中表示:尽管现有数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。我们已经达到了数据的峰值,未来不会再有更多数据,我们必须利用现有的数据,因为互联网只有一个。

Ilya Sutskever 的发言或许反映出数据的发展方向正在发生转变:从依赖海量数据的预训练模型转向更加注重智能体、合成数据和推理等领域。这种转变一定程度上预示着 AI 技术发展的新趋势。

这次,我们选择以数据作为切入点,来讨论一下数据的发展方向,以及在这基础上的 AI 走向。

本期嘉宾

刘子纬南洋理工大学助理教授

研究领域:刘子纬的研究兴趣涵盖计算机视觉、机器学习和计算机图形学。他博士师从汤晓鸥教授,曾在加州大学伯克利分校(2017-2018 年)担任博士后研究员,后在香港中文大学(2018-2020 年)担任研究助理。子纬曾获得多项荣誉,包括 PAMI Mark Everingham 奖、《麻省理工科技评论》亚太区 35 岁以下科技创新 35 人、ICBS 科学前沿奖、CVPR 最佳论文奖候选人以及亚洲青年科学家奖学金。他的研究成果已转化为产品,包括微软 Pix、SenseGo 和谷歌 Clips。

赵昊清华大学智能产业研究院(AIR)助理研究员/助理教授、光轮智能首席科学家

研究领域:赵昊博士专注于几何与认知层面的场景理解及其在机器人中的应用,于计算机视觉与机器人国际期刊和会议(CVPR, ICCV, ECCV, IJCV, CVIU, ISPRS, T-IP, T-MM, NeurIPS, ICLR, RA-L, ICRA, IROS)上发表近 30 篇论文。赵昊博士是清华大学最大的机器人社团“天空工场”的创始人和负责人之一,曾参与孵化 10 余家高新技术创业公司。赵昊博士曾获得 LSUN, Holistic3D, LID 等多项学术竞赛冠军。

主持人

秦明杨《麻省理工科技评论》中国社区运营负责人、奥克兰大学计算语言学方向硕士

时间轴

05:11

大模型的训练使用到了什么数据?

12:53

合成数据 vs 生成数据

19:06

合成数据的应用场景

26:33

推理类数据对于自动驾驶和具身智能的意义

29:39

合成数据的生产方式

35:00

自动驾驶和具身智能领域的数据合成方式

38:19

影响合成效率的因素有哪些?

42:00

对学界和业界来说,合成数据的更新频率是怎样的?

45:12

评估合成数据的标准

49:19

合成数据可以被称为是一个产业或者产业链上的一环吗?

55:31 

合成数据方面值得关注的方向

62:42

合成数据是否可以迁移到 AI4S 来推动其他学科的发展?

内容聚焦

本期播客分别从学术和产业的角度,讨论了合成数据的概念、生产过程和评价标准,深入分享了合成数据对 AI 产业的重要性,以及未来随着生成数据和合成数据的合并使用,将对 AI 以及 AI4S 的重要意义和发展趋势。

合成数据 vs 生成数据

合成数据(Synthetic Data)和生成数据(Generated Data)是两个在人工智能和机器学习领域中经常使用的概念,它们都涉及到创建用于训练和测试模型的数据集。合成数据是通过模拟或算法生成的数据,它通常基于现实世界数据的模式和分布,但不是直接从现实世界中采集的。生成数据是指利用生成模型(尤其是大模型)创建的数据,这些数据不仅模仿现实数据的分布,而且在某种程度上具有原创性和真实性。合成数据更注重可控性,可以根据特定的需求和规则来生成,而生成数据更注重真实性,它模仿现实世界数据的外观和特征,但可能不完全受控。随着技术的发展,两者被越来越多地被结合起来使用,以发挥各自的优势。

合成数据产业

数据作为 AI 公司核心竞争力的体现,在 AI 发展中处于核心地位。随着 AI 技术的进步,数据的需求和消耗速度增加,合成数据作为一种解决方案,可以帮助突破数据量瓶颈,尤其是在获取真实数据困难或成本高昂的场景中。此外,合成数据产业被视为一个广泛的领域,不仅包括专门的数据供应商,也涵盖了所有涉及数据生产、处理和合成的 AI 工程师和科学家。合成数据在提高模型性能、推动 AI 技术进步以及在特定领域如自动驾驶和机器人技术中的应用潜力巨大。随着中国生产力的发展和对 SaaS 模式接受度的提高,合成数据产业在中国也有望逐渐兴起并成为 AI 领域的一个重要分支。

关于未来趋势的研判

在未来一年内,我们预计会在不同模态数据的融合方面取得显著进展,这对于训练能够理解和处理多种类型数据的统一多模态大模型至关重要。在接下来的 1 到 2 年里,自动驾驶和智能系统领域的闭环仿真器将集成人工智能技术,这不仅将增强它们在感知任务上的能力,还将使它们能够进行复杂决策,从而显著提高生产效率和智能系统的实用性。

视频合成数据预计将给视频理解行业带来重大突破,特别是在多媒体内容理解和监控领域。这些进步将促使互联网公司的算法变得更加智能,进而改善内容推送和用户交互体验。在自然语言处理(NLP)领域,尤其是对于类似于 o1 这样的推理能力,合成高质量的推理数据将有助于提升模型的推理能力,使模型更加智能,能够解决更多复杂的问题。

合成数据和生成数据的融合将成为一个明显趋势,这一趋势旨在结合两者的优势,提高数据的真实性和可控性。在未来 3 到 5 年内,我们可能会看到更加动态和开放的合成数据环境的出现,这些环境类似于电视剧《西部世界》中的概念,使得 AI 系统能够在其中实时获得反馈并不断进化。

此外,合成数据技术有望扩展到生命科学和材料科学等其他领域,从而对这些学科的发展产生深远影响。这些跨领域的应用将进一步推动合成数据技术的发展,并可能在多个行业中引发变革。

最新文章
这一抹红色,是从未忘却的纪念
它是飘落在地球上的一根红飘带是贵州旅游打卡的新地标它是什么?全国首个以长征为主题的全域行浸式数字科技体验馆“红飘带”项目9259如果奇迹有颜色那一定是中国红那,这样的红色你见过吗?它取自赤水河边的泥岩之色象征长征的艰辛历程和革
百度推广和安全联盟认证已被取消,现为百度信誉V认证
目前,在百度搜索框中输入某些关键词并搜索到一些自然网站排名时,把鼠标移动到百度推广蓝色V认证上面,发现没有显示百度推广身份认证和安全联盟认证字样,而是显示V已经通过百度信誉认证。由此看来,百度已经将百度推广认证和安全联盟认证
抖音信息流和内容热推的区别?抖音信息流价格分析软件
抖音广告投放策略比较:信息流和内容热推摘要:抖音作为当前流行的短视频平台,广告投放已经成为企业推广的重要手段。其中,信息流和内容热推是两种主要的广告投放策略。本文将从四个方面详细对比这两种策略的特点和应用场景,帮助企业更好
外贸SOHO建站报价——建个个人外贸网站多少钱
很多外贸SOHO和企业都需要建立外贸网站作为品牌推广的重要平台。因此,如果我们想知道建立一个外贸网站的价格,开发外贸网站Ueeshop可以跟大家一起看看都包含了哪一些内容。对于需要建立外贸网站的用户来说,他们可以看到很多不同的价格,
松鼠AI智能学习机:高效全科辅导新选择
松鼠AI智能学习机是一款高效全科辅导新选择,它结合了人工智能技术和教育知识体系,可以帮助学生自主学习、提高学习效率。松鼠AI智能学习机拥有多种学科的课程,包括语文、数学、英语、科学等,覆盖了小学到初中各年级的内容。学生可以根据
语音直播聊天系统开发(APP、公众号、小程序)
2015年01月15日潘锦霖系统开发,软件开发,APP开发,源码搭建,定制软件,社交电商,云电商,新媒体电商,O2O,F2C,B2C,B2B2C,F2B2C,C2B,B2C2N,S2B2C,微商城,App,手机网页,PC商城,小程序,微商管理系统,扫码红包,质量追溯,分销系统, 全返系统,分红系
用AI轻松生成超逼真美女写真,这款工具你一定要试!
在这个科技飞速发展的时代,AI生成技术的应用已经渗透到我们生活的各个角落。尤其是在摄影和艺术创作领域,AI工具带来了前所未有的便捷与可能性。想象一下,不用外出,只需要在你的手机或电脑屏幕前,就可以生成各类超逼真的美女写真,不再
魅族Lucky 08:性能强劲,拍照专业,千元机中的佼佼者
在当今智能手机市场,AI技术已成为各大品牌竞相追逐的焦点。魅族Lucky 08 AI手机,凭借其独特的AI功能和卓越的硬件配置,迅速成为市场上的热门话题。这款手机不仅在AI应用上有所创新,更在续航、屏幕显示和摄影等方面表现出色,为用户带来
精美PHP导航收录网站源码-QQ技术导航程序源码
划算本站会员的9大好处?1.发布的源码/资源,都已经经过本站/其他站长/用户大部分亲测可使用,质量极高!2.本站只发布合法内容,从不发布违法内容,服务器以续费5年,网站安全长久不跑路!3.本站整合了多个网站的永久高级会员,开通本站会
探讨数学与AI的奇妙碰撞:2024中国人工智能大会即将召开
即将于2024年12月13日至15日在北京举行的2024中国人工智能大会(CCAI 2024),将以“创新驱动智启新程”为主题,汇聚了数学与人工智能领域的重量级专家,其中包括丘成桐院士、戴琼海院士、林文伟教授等重量级嘉宾,他们将展开一场关于“AI
相关文章
推荐文章
发表评论
0评