“没有找到 xx 的结果,请尝试新的搜索词。” 有多少人在使用手机自带的相册搜索功能时收到过这样的反馈?
现在大多数人的相册里都有几千张照片,却懒得去整理。 当他们需要使用某张图片时,只需按照时间段在某个类别中进行搜索即可。 手机自带的“搜索”功能常常因为性能不佳而不受人喜欢。 例如,如果搜索“小狗”,可以找到很多图片,但如果搜索“婴儿小狗”或“樱花树下的狗”,则不会有结果。 在人类可以与AI顺利对话的今天,这种图像搜索体验已经落后于时代了。
但如果您有将照片保存到网络驱动器的习惯,这就会变得容易得多。 它不仅可以帮助您找到“婴儿小狗”和“樱花树下的狗”,还可以找到您和您的小狗在某个时间和地点的照片。
这是百度网盘2024年推出的“高级图像搜索”功能,可以理解包含时间、地点、人物、事件等诸多元素的组合搜索语句。 只要在网盘上输入“高级图片搜索”并点击“立即尝试”,就可以直接使用各种复杂的命令在主页的搜索框中搜索图片。
今年,他们甚至推出了视频搜索功能,打破了传统手机或网盘相册只能搜索照片的限制,帮助你快速、准确地找到你要找的视频。
值得注意的是,这些搜索结果几乎都是在一秒之内给出,搜索效率极高。
这与强大的AI大模型、海量计算调度、细致的工程努力密不可分。 本文将一一科普一下。
相册中存储的照片和视频
为什么我总是找不到?
很多尝试使用手机内置搜索功能来搜索照片、视频的同学都会疑惑,为什么稍微复杂一点的搜索语句手机就看不懂呢? 找到的结果仍然是所有包含某个关键词的照片,或者干脆显示找不到。
要回答这个问题,我们先来看一张图:
假设您是一个给图片贴标签的人。 你会给这张照片贴上什么样的标签? “猫”、“橙猫”和“动物”都是可能的答案。 但如果扩大视角,也可以贴上诸如“春天”、“户外”等代表时间和环境的标签,以及旁边的“草”、“土壤”和“雪”。 以此类推,你很难用有限的标签来概括一张图片所包含的所有信息。 然而,目前的手机大多依靠这些标签来完成搜索,因此很难准确匹配搜索内容。
如何“搜索”百度网盘?
为了克服“标签搜索”无法完整描述图像内容和特征的限制,百度网盘将“标签搜索”替换为“基于向量的语义搜索”。
这种搜索方法的机制如下图所示:首先,网盘中的所有照片都会被编码为一组特征向量(可以理解为一组数值序列,序列中的每个元素代表某种特征)或图片的属性)。 搜索时,你输入的文本信息也会被转换为一组特征向量。 接下来,将这两组向量映射到同一语义向量空间进行比较:图像向量与文本向量的距离越近,图像与文本的相似度越高,图像越有可能是你在寻找什么。 那个。
与基于标签的方法相比,这种基于向量的语义搜索极大地提高了搜索的灵活性,因为你不再需要考虑你要搜索的图像被标记了哪些标签,你可以输入想到的任何线索,只需就像日常用语一样。 由于矢量可以全面描述图像的内容和特征(例如,它不仅代表“狗”,还代表“幼狗”),因此搜索结果更加准确和全面。
另外,用这种方法,可以搜索的内容也很广,包括人物、风景、动物、地标等等。这是因为百度网盘采用了自主研发的多模态预训练的文心CV大模型—— ViLP,集成场景图知识来解决语义匹配问题。 该技术使用大量网络数据进行训练,以理解和识别各种图像内容。
然而,语义向量也有自己的能力边界。 例如,他们无法准确判断时间、地点、人物等信息,需要使用其他方法来补充搜索。
可以从照片本身携带的原始信息中提取时间和位置信息,并将其中包含的经度和纬度转换为实际的街道名称和地名。 个人信息可以通过智能分类进行聚合,然后进行标记。 最后,可以使用范围查询或关键字查询来实现对该信息的搜索。
通过搜索该组合,您将得到您想要的结果。 为了使照片(而不是文档)在搜索结果中排名靠前,技术人员还增加了对用户搜索意图的理解。 如果识别出该照片是用户要查找的内容,系统会将返回的照片放置在顶部,解决照片位于后面的问题。
相比之下,视频搜索难度更大,消耗的计算能力也更多。 因此,百度网盘采取了搜索封面图的策略(因为视频的封面图往往更有代表性),将视频转换为图片。 进行搜索时,要在成本和搜索准确性之间取得平衡。
如何提高搜索速度?
“我一打完,点击就返回结果了,速度真快!” 这是很多人在使用百度网盘搜索图片时的共同感受。 这背后其实涉及到三个方面的优化。
第一是充分利用“云端算力大、本地设备延迟小”的特点,让云服务器和你的手机各自承担自己擅长的任务:云服务器执行向量对网盘中的图片进行计算,然后使用实时数据同步通道将计算结果发送到您的手机,在手机本地创建索引,在手机本地完成矢量检索。
这种方式的好处非常明显:第一,将需要大量算力的矢量计算任务放在云端,可以弥补个人设备上算力的不足,让图像搜索功能在各种机型上得到充分发挥; 第二,矢量计算搜索在手机本地完成,避免了您的设备与服务器之间通过公网传输数据的延迟,保证了搜索效率。
百度网盘客户端+云向量检索流程: 1、请求云端计算文本的特征向量和LSH(-,本地敏感哈希)编码; 2. 计算文本和图像的LSH编码的等维数,发现等维数超过阈值 3. 在候选图像子集中,计算图像向量与文本向量的相似度,从高返回根据相似度从低到低。
其次是尽可能压缩本地索引大小,以进一步减少您的设备需要承载的计算量,并减少功耗和手机发热。 对索引进行大量压缩后,即使图像大小达到10万张,矢量检索速度也能达到毫秒级,最终返回结果的延迟也能控制在秒级。
三是开发异构算力调度系统。 该系统可以统一管理CPU、GPU等异构资源的调度,充分利用闲置资源以最快的速度覆盖更多的搜索人员。
长期以来,由于图像、视频搜索成本高、效率低,很多相册应用都没有向用户开放该功能。 但通过上述措施,百度网盘在成本和效率之间取得了很好的平衡,因此开创性地进行了开放,在保证搜索体验的同时可以控制成本。
网络盘≠网络硬盘
网盘是一种已经存在了近20年的产品类型。 百度网盘也已经出现11年了。 然而,长期以来,人们只是将网盘作为存储工具,形成了“网盘”。 “磁盘=网络硬盘”刻板印象。 随着一些智能功能的出现,这种印象正在被打破。 百度网盘就是最好的例子。
除了上面提到的基于文本的图片搜索外,百度云盘实际上还支持“OCR图像识别”和“按图搜索”,并且可以自动关联百科信息甚至全网的信息,大大扩展了信息检索的维度,让您能够比传统存储工具更深入地了解图像背后的故事。
基于这些功能,百度网盘的应用场景不断拓展,比如朋友圈文案的图片匹配:

在体验这些功能时,您可以深刻体会到百度网盘多年来积累的优势:支持多个终端同时关联同一个账户,形成天然的全终端数据中心,可以用不同的方式记录您的生活。过去十年的设备。 这些碎片被构建成个人的图库和图库,然后在你搜索的时候不经意间就会展示出其中的一些,让你恍然大悟:“原来我还有这样的照片,这样的记忆。”
日常生活之外,越来越多的人将百度网盘作为生产力工具,利用图像搜索等功能来管理可视化素材和发票等多模态文档。 据统计,百度网盘和墨迹相册(百度网盘团队出品的云相册应用)的图片搜索功能已覆盖数千万用户,每年累计图片搜索服务超过2.5亿次。
更值得一提的是,如此海量的图片和视频,百度网盘始终把用户的数据安全和隐私保护放在第一位。 以存储安全为例,百度网盘依托百度云计算(微信)中心,数据可靠性高达99.%(12个9),极大提升了用户数据的稳定性和可靠性。 同时持续通过ISO安全认证三年度审核,充分保障每个用户的数据安全。
从根本上来说,这些应用场景的集中爆发,是因为百度网盘正在有意识地参与一场变革,这就是今年AI大模型带来的人机交互的变革。 在这场革命中,人们越来越多地使用自然语言与计算机交互,通过文本搜索图片只是其中的表现形式之一。
在今年5月的“万象大会”上,百度网盘还推出了基于文心大模型的“云一朵”智能助手,将文件和视频的快速搜索、知识总结、文档翻译、智能创作变成了未来,将实现多模态创作,通过物联网设备互联网盘内容。
具体来说,“云一朵”能做的事情有很多。 首先是个人知识管理:它可以将你存储在网盘中的所有内容转换成可以使用自然语言搜索的数据库,满足智能搜索、摘要、问答、互动等需求。
百度网盘“云易多”自动分析英文文档并返回中文结果
二是多模态创作:可以利用网盘中的图片生成视频、将视频细化为文字等。
百度网盘“云易多”为视频添加字幕、提取摘要。
三是通过物联网设备,实现多种类型智能硬件上网盘内容的互联互通。 例如,利用网盘的语音转写、视频转音频等能力,赋能智能音箱、阅读器、助听器、词典笔等硬件,打破以往使用各种硬件工具时的割裂感,使得智能网盘带来的体验无处不在。
当然,这种交互方式对计算能力和大模型能力的要求很高。 不过,这也是百度网盘的优势:丰富的云资源让他们能够利用足够大的自研AI模型,获得足够丰富的语义特征。 另外,自主研发的大模型在迭代方面更加灵活高效。
可以看到,如今,随着百度网盘不断进行智能化升级,这个曾经被贴上“网络硬盘”标签的工具正逐渐向“第二大脑”的方向进化。 基于大型模型的处理能力,正在帮助更多人与数字世界建立联系,成为真正的生产力工具。
©结束