分享好友 最新资讯首页 最新资讯分类 切换频道
基于视觉大模型,百度网盘把「猫」换成了
2024-11-03 12:28

随着移动互联网的一路狂飙,手机已经成为人们的新器官。出门不带钥匙可以,不带手机却是万万不可以的。而手机上,小小的摄像头也越来越成为各位「vlogger」的口袋魔方。每天有超过数亿的照片和视频被上传到百度网盘中,这些照片和视频大多来自于用户自己的拍摄或收藏,覆盖的主题和内容相当广泛,包括人物、风景、动物、地标建筑、素材等。他们记录着生活,也通过灵感和创意展示着生活。但由于数量庞大、种类繁多,这些图像资源的管理和搜索成为了用户的一大挑战。

基于视觉大模型,百度网盘把「猫」换成了

“好难找啊!”

在和用户的沟通中,“找照片的过程十分痛苦”引起了大家的共鸣。即使网盘提供了云上大空间供照片储存,基础分类搜索后的照片还是如同汪洋大海。有时候为了寻找一张在记忆中“闪现”的照片,需要长时间在时光轴里滑动。

「如果能通过 去年夏天我在海边的照片 这种关键词直接得到照片就好了」。

说干就干。

网盘的技术同学开始广泛调研市面上的图片搜索功能。研究发现,目前大部分都是基于标签的图片搜索方法。这往往需要用户手动或者AI帮助添加标签或关键词,才能进行检索和匹配。然而,由于一张图片往往有很多不同的内容和特征,标签的限制导致用户只能添加少量有限范围内的标签,诸如简单的“猫”,“日出”等,无法全面地描述图片的内容和特征。因此,现有的图片搜索无法响应用户更加复杂的图片描述。

「怎么办?」用户这样问我们,我们就这样问自己。

「精准精准再精准」

话不多说,先来看看优化后的实际效果:

从「鸟」到「海边的鸟」,从「海边」定位到「我在海边」,从「宝宝」精准到「抱着宝宝逛街」……

百度网盘想做的,做成的,就是从「面」精准到「线」甚至到「点」。

为了解决这个问题,百度网盘引入了基于自然语言的图片内容语义检索方法,这种方法是利用深度学习和人工智能技术,将每张图片转化为一个向量表示,从而通过计算语言向量和视觉向量之间的相似度来进行搜索和匹配。由于向量表示比传统标签更加丰富,因此,能有效实现人们用自然语言搜索图片的目的。

「为什么用向量?」相信这也是很多“行友”的疑惑。

相比传统的标签搜索方法,基于向量的语义检索具有以下优点:

因此,在百度网盘团队的努力下,我们真的做到了「精准精准再精准」,图片搜索也不再那么“难”了。


实际技术产品化过程并非一帆风顺,我们遇到了很多问题,这也是业界很多相册管理工具未提供类似功能的原因。从项目立项、效果验证到产品化,我们花了超过四个月的时间,直到22年8月底正式上线和大家见面。“怎么做到的?” “如何理解自然语言” “还能更快搜到吗”……这些都是我们和用户共同关注的问题。

01 搜得到

像“穿鞋子的猫”“穿正装的照片”这种,传统的标签检索很难搜到。因此,我们选择了语义向量。无论是OpenAI开源的CLIP,还是百度自研的融合了场景图知识的多模态预训练文心·CV大模型VIMER-ViLP,都很擅长解决语义匹配问题。

这类方法的核心原理是将检索文本和个人影像数据映射到同一语义向量空间,文本和个人影像数据向量之间的距离越近,相似度就越高。这样我们通过向量检索,来实现用中文文本查找对应图片的功能了。相比传统先打标签,再关键词搜索的方法,基于语义的检索方案,直接实现了端到端的语义匹配,能够避免语义的丢失。


02 搜得准

在网盘用户的实际搜索中,我们发现,用户存在着复杂多维度组合查询的需求。比如:去年我在三亚海边看日出的照片。其中包含了时间、地点、人物的信息,这就超出了语义向量的能力边界了,语义向量无法精准的判断时间、地点,也无法知道你是谁。

但是,经常拍照的用户应该会说「我们手机拍出来的照片,就包含了拍摄时间、经纬度等相关信息呀!」

没错,我们正是通过提取这些元信息,把经纬度转换成实际的街道名、场所名称从而用来做时间、地点的精确匹配。

「那怎么识别我是谁?」

别急,虽然识别“谁是你”相对复杂一些,但我们也找到了解决办法。在百度网盘备份过照片的用户,应该都知道智能分类。我们会把照片中出现的同一个人物的照片聚合出来,你可以自己给这个人物打上标签,比如“我自己”“宝贝”等。我们便基于这个标签来做人物的搜索。有了这些信息,我们就可以实现,时间、地点、人物、事件组合的复杂搜索。回到上面这个例子,“去年我在三亚海边看日出的照片”,我们拿到这个请求,会首先解析出里面包含的各个元素:

其中,时间、地点、人物可以用范围查询或者关键词查询来实现,事件适合用语义向量来实现,通过这样的组合查询,我们最终就能得到用户想要的结果。

有些用户反馈,图片的结果太靠后了,「在找图片的时候,总是要翻好几次才能看到,真难」。

于是,我们增加了对用户搜索意图的理解,如果识别出来你是想要找图片,我们就会把图片的返回结果放在最上面。


03 搜得快

解决了效果方面的问题,又出现了新的挑战:如何将技术变成用户可使用的产品?由于成本太高,效率太低,很多相册APP并没有把这种功能开放给用户。

影响速度的环节有很多,整个过程中,我们首先需要提前对用户的图片进行向量计算,并建立索引,然后查询的时候,能够快速的对用户的query进行分析并完成图片向量的检索,最终把结果排序后呈现给用户。这个流程中我们遇到了很多挑战:

端+云结合

端本地索引优化

为了节省用户本地的索引存储量,同时尽可能减少计算量,我们对索引进行了大量的压缩,优化后,即使图片规模达到10w,向量检索速度也可以达到ms(毫秒)级别,最终返回结果的延时能控制在秒级别。

端+云向量检索流程如下图所示:

1.请求云端计算文本“黄色的猫”的特征向量和LSH(Locality-Sensitive Hashing,局部敏感哈希)编码;

2.计算文本和图片LSH编码相等的维数,找到相等维数超过阈值的图片子集

3.在候选的图片子集中,计算图片向量与文本向量的相似度,按照相似度,从高到低返回

异构算力调度

除了要每天为新增的亿级别数据计算向量特征外,我们还需要持续的对用户存量数据进行计算。为了让有迫切需求的用户,能够尽快使用到这个功能,我们也提供了申请加速开通图片高级搜索的通道,优先为申请用户计算数据。为了利用一切可以计算的资源来加速计算效果,我们开发了一套能够统一管理CPU、GPU等异构资源的调度系统,充分利用闲置资源,来实现尽可能快的覆盖更多用户。

04 搜更多

除了图片语义检索,我们之前也收到了用户各种各样的找图需求,比如:想搜索图片里的文字、想给朋友圈文案配一张以前拍的图片。

针对「搜索图片里的文字」,用户可以在搜索筛选里开启,开启后可能需要等待文字提取完成。

「我想要朋友圈文案配图片」你不妨直接搜一下,我们会给你推荐相册里最适合这句话的图片,就像

最新文章
宝塔搭建GPT+MJ+GPTs程序
目录准备 1.云服务器 2.支持ChatGPT+Midjourney的服务的秘钥 需要准备的软件(能进行ssh连接的都行) Windows版
异构计算+高性能低功耗NPU,高通正在推动终端侧生成式AI发展
9月6日,2024全球AI芯片峰会在北京召开。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业
均安SEO优化攻略,揭秘全方位网站排名提升秘诀
均安SEO优化策略,全方位提升网站排名秘诀:优化关键词、提高内容质量、加强外链建设、优化网站结构、提升用户体验。通过这些方
北交所科技成长产业跟踪第三期:华为Mate品牌盛典发布鸿蒙AI新品,关注北交所鸿蒙%26星闪相关公司.pdfVIP
源引金融活水润泽中华大地内容目录1.华为Mate品牌盛典如期举行,多款AI终端亮相51.1.Mate70蕴含九大AI功能,MateX6首发星闪关机
一、智能创作平台的全方位解决方案
在数字化时代的浪潮中内容创作已成为企业竞争和塑造的核心环节。传统的内容创作方法往往耗时耗力,且难以保证内容的品质和一致性
【GPT-4】GPT-4 是否已经显示出通用人工智能的迹象?——微软已经为 OpenAI 的 GPT-4 创建了一系列测试,它声称表明人工智能模型已经显示出通用智能的“火花”
目录 GPT-4 是否已经显示出通用人工智能的迹象? Is GPT-4 already showing signs of artificial general intelligence? "We bel
惠普和rog哪个好(6000买惠普还是华硕)
在操作系统选择方面,ROGGU604和HP暗影精灵9/光精灵9均支持流行的Windows和Linux系统,提供灵活的使用环境。 ROGGU604 的快速充
【HM1SUC浏览器下载】小米HM1SUC浏览器17.1.6.1347免费下载
UC专注16年,成就全球第三方手机浏览器全球6亿人上网必备APP,群众的眼睛是雪亮的头条视频小说网盘小游戏,想你之所想一应俱全UC
如何有效获取视频号微信搜索流量(实用技巧,让你的视频号获得更多关注)
视频号微信已经成为了许多人获取流量的何有号获平台、随着社交媒体的效获发展。如何让自己的取视视频号在微信搜索中获得更多的流
【R7(R7t/移动4G)支付宝下载】OPPO R7 R7t/移动4G支付宝10.6.70.8100免费下载
支付宝是蚂蚁集团旗下业务,诞生于2004年,已经成长为的数字支付开放平台和服务业数字化经营开放平台。我们面向消费者、各行各业