您当前的位置:首页 > 电脑百科 > 站长技术 > 搜索引擎

谷歌发布搜索系统AVIS

时间:2023-08-22 13:49:45  来源:新智元  作者:

新智元报道

编辑:LRS

【新智元导读】知识无法完全编入模型参数,学会搜索也是AI的必备技能!

在大型语言模型(LLM)的加持下,与视觉结合的多模态任务,如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等都取得了重大进展。

不过目前视觉语言模型(VLM)基本都只是利用图像内的视觉信息来完成任务,在inforseek和OK-VQA等需要外部知识辅助问答的数据集上往往表现不佳。

最近谷歌发表了一个全新的自主视觉信息搜索方法AVIS,利用大型语言模型(LLM)来动态地制定外部工具的使用策略,包括调用API、分析输出结果、决策等操作为图像问答提供关键知识。

论文链接:https://arxiv.org/pdf/2306.08129.pdf

AVIS主要集成了三种类型的工具:

1. 从图像中提取视觉信息的工具

2. 检索开放世界知识和事实的网络搜索工具

3. 检索视觉上相似的图像搜索工具

然后使用基于大型语言模型的规划器在每个步骤中选择一个工具和查询结果,动态地生成问题答案。

模拟人类决策

Infoseek和OK-VQA数据集中的许多视觉问题甚至对人类来说都相当难,通常需要各种外部工具的辅助,所以研究人员选择先进行一项用户调研,观察人类在解决复杂视觉问题时的解决方案。

首先为用户配备一组可用的工具集,包括PALI,PALM和网络搜索,然后展示输入图像、问题、检测到的物体裁剪图、图像搜索结果的链接知识图谱实体、相似的图像标题、相关的产品标题以及图像描述。

然后研究人员对用户的操作和输出进行记录,并通过两种方式来引导系统做出回答:

1. 通过分析用户做出的决策序列来构建转换图,其中包含不同的状态,每个状态下的可用操作集都不同。

AVIS转换图

例如在开始状态下,系统只能执行三个操作:PALI描述、PALI VQA或目标检测。

2. 使用人类决策的样例来引导规划器(planner)和推理器(reasoner)与相关的上下文实例,来提高系统的性能和有效性。

总体框架

AVIS方法采用了一个动态的决策策略,旨在响应视觉信息寻求查询。

该系统有三个主要组成部分:

1. 规划器(planner),用来确定后续操作,包括适当的API调用以及需要处理的查询。

2. 运行记忆(working memory)工作内存,保留了从API执行中获得的结果信息。

3. 推理器(reasoner),用来处理API调用的输出,可以确定所获得的信息是否足以产生最终响应,或者是否需要额外的数据检索。

每次需要决定使用哪个工具以及向系统发送哪些查询时,规划器都要执行一系列操作;基于当前状态,规划器还会提供潜在的后续动作。

为了解决由于潜在的动作空间可能过多,导致搜索空间过大的问题,规划器需要参考转换图来消除不相关的动作,排除之前已经采取并存储在工作记忆中的动作。

然后由规划器从用户研究数据中组装出一套上下文示例,结合之前工具交互的记录,由规划器制定提示后输入到语言模型中,LLM再返回一个结构化的答案,确定要激活的下一个工具以及派发的查询。

整个设计流程可以多次调用规划器,从而促进动态决策,逐步生成答案。

研究人员使用推理器来分析工具执行的输出,提取有用的信息,并决定工具输出哪个类别:提供信息的、不提供信息的或最终答案。

如果推理器返回结果是「提供答案」,则直接输出作为最终结果,结束任务;如果结果是无信息,则退回规划器,并基于当前状态选择另一个动作;如果推理器认为工具输出是有用的,则修改状态并将控制权转移回规划器,以在新状态下做出新的决定。

AVIS采用动态决策策略来响应视觉信息搜索查询

实验结果

工具集合

图像描述模型,使用PALI 17B模型为输入图像和检测到的物体裁剪图像生成描述。

视觉问题回答模型,使用 PALI 17B VQA 模型,将图像和问题作为输入,并将基于文本的答案作为输出。

物体检测,使用在Open Images数据集的超集上训练的物体检测器,具体类别google Lens API提供;使用高置信度阈值,只保留 输入图像中排名靠前的检测框。

图像搜索,利用Google Image Search来获取与检测到的方框的图像裁剪相关的信息。

在进行决策时,规划器将每条信息的利用都视为一项单独的操作,因为每条信息可能包含数百个token,需要进行复杂的处理和推理。

OCR,在某些情况下,图像可能包含文字内容,如街道名称或品牌名称,使用Google Lens API 中的光学字符识别(OCR)功能获取文本。

网络搜索,使用谷歌搜索API,输入为文本查询,输出包括相关文档链接和片段、提供直接答案的知识图谱面板、最多五个与输入查询相关的问题。

实验结果

研究人员在Infoseek和OK-VQA数据集上对AVIS框架进行了评估,从结果中可以看到,即使是健壮性非常好的视觉语言模型,如OFA和PALI模型,在Infoseek数据集上进行微调后也无法获得高准确性。

而AVIS方法在没有微调的情况下,就实现了50.7%的准确率。

在OK-VQA数据集上,AVIS系统在few-shot设置下实现了60.2%的准确率,仅次于微调后的PALI模型。

性能上的差异可能是由于OK-VQA中的大多数问答示例依赖于常识知识而非细粒度知识,所以PALI能够利用到在模型参数中编码的通用知识,不需要外部知识的辅助。

AVIS的一个关键特性是能够动态地做出决策,而非执行固定的序列,从上面的样例中可以看出AVIS在不同阶段使用不同工具的灵活性。

值得注意的是,文中推理器设计使AVIS能够识别不相关的信息,回溯到以前的状态,并重复搜索。

例如,在关于真菌分类学的第二个例子中,AVIS最初通过选择叶子对象做出了错误的决定;推理器发现与问题无关后,促使AVIS重新规划,然后成功地选择了与假火鸡尾真菌有关的对象,从而得出了正确的答案,Stereum

结论

研究人员提出了一种新的方法AVIS,将LLM作为装配中心,使用各种外部工具来回答知识密集型的视觉问题。

在该方法中,研究人员选择锚定在从用户研究中收集的人类决策数据,采用结构化的框架,使用一个基于LLM的规划器,动态地决定工具选择和查询形成。

LLM驱动的推理器可以从所选工具的输出中处理和提取关键信息,迭代地使用规划器和推理器来选择不同的工具,直到收集出回答视觉问题所需的所有必要信息。

参考资料:

https://the-decoder.com/googles-avis-aims-to-answer-tricky-questions-about-images-by-searching-the-web

https://ai.googleblog.com/2023/08/autonomous-visual-information-seeking.html



Tags:谷歌   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  Search: 谷歌  点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09  Search: 谷歌  点击:(1)  评论:(0)  加入收藏
海外推广干货分享:外贸网站在谷歌SEO排名上不去首页的16个原因
当外贸网站在谷歌SEO排名上无法进入首页时,可能有多种原因导致。以下是一些可能的原因: 缺乏优质内容:谷歌注重用户体验,对于提供有价值、相关且独特的内容的网页更倾向于排名靠...【详细内容】
2024-04-09  Search: 谷歌  点击:(2)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09  Search: 谷歌  点击:(2)  评论:(0)  加入收藏
机械设备B2B工厂外贸网站如何做Google谷歌SEO优化关键字排名?
在今天的全球化市场中,机械设备行业正面临着激烈的竞争。要在这一领域脱颖而出,拥有一个优化良好的B2B外贸网站至关重要。通过精准的谷歌SEO关键字排名,您的网站可以吸引更多海...【详细内容】
2024-04-08  Search: 谷歌  点击:(5)  评论:(0)  加入收藏
Win10/Win11和 macOS用户反馈:谷歌云服务“捆绑”系统 DNS 设置
IT之家 4 月 6 日消息,谷歌公司承认旗下的 Google One 订阅服务中存在问题,在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置,变更为 8.8.8.8 地址。Google On...【详细内容】
2024-04-08  Search: 谷歌  点击:(4)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08  Search: 谷歌  点击:(7)  评论:(0)  加入收藏
谷歌或改变商业模式,人工智能搜索考虑收费
诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案,这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】
2024-04-07  Search: 谷歌  点击:(1)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: 谷歌  点击:(8)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02  Search: 谷歌  点击:(7)  评论:(0)  加入收藏
▌简易百科推荐
搜索引擎大变局:向左AI,向右收费
自ChatGPT面世以来,它是否会取代谷歌的讨论就未曾止歇。近日,知情人士透露,谷歌正考虑对生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务史上最大的变革,传统搜索引擎公...【详细内容】
2024-04-09    21世纪经济报道  Tags:搜索引擎   点击:(2)  评论:(0)  加入收藏
谷歌或改变商业模式,人工智能搜索考虑收费
诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案,这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】
2024-04-07    媒体滚动  Tags:谷歌   点击:(1)  评论:(0)  加入收藏
AI搜索起风,昆仑万维、360“争先恐后”
去年,国内外掀起了一波AI热潮,包括互联网大厂、科技企业在内的各路巨头积极参与其中,并且推出了自家的AI大模型产品,一时间,更是出现了“百模大战”的盛况。AI大模型的出现,也让各...【详细内容】
2024-03-28  刘旷  搜狐号  Tags:AI搜索   点击:(12)  评论:(0)  加入收藏
AI聊天机器人或将取代搜索引擎?这不是开玩笑!
作为互联网行业中最经典的商业产品之一,搜索引擎在太平洋两岸分别哺育出了谷歌和百度这两大科技巨头。虽然在过去二十余年间,无数挑战者试图掀翻百度和谷歌的“铁王座”,却无一...【详细内容】
2024-02-21    三易生活  Tags:搜索引擎   点击:(44)  评论:(0)  加入收藏
百家号AI自动生成的视频会有版权问题吗?
百家号AI自动生成的视频会有版权问题吗? 随着人工智能技术的不断发展,越来越多的AI应用开始涉足视频生成领域。其中,百家号AI自动生成的视频成为了人们关注的焦点。然而,随之而...【详细内容】
2024-01-29    简易百科  Tags:百家号   点击:(75)  评论:(0)  加入收藏
百度搜索对比其他搜索平台有哪些不同之处
百度搜索作为中国最大的搜索引擎,与其他国际搜索引擎如谷歌、必应等相比,存在一些不同之处。本文将主要探讨百度搜索相较于其他搜索引擎的特点和优势。一、地域性百度搜索在中...【详细内容】
2024-01-23  重庆百首网络    Tags:百度搜索   点击:(48)  评论:(0)  加入收藏
你还在用百度搜索么?2023年百度搜索市场份额大跌,搜索引擎排名
看2023年搜索市场之前先看一下2019年12月到2023年12月整体数据,数据显示,百度搜索占比最高在2022年一月,搜索使用占比接近90%,其他的搜索引擎几乎不配跟百度对比。再来看看2023...【详细内容】
2024-01-07  自在畅说  今日头条  Tags:搜索引擎   点击:(59)  评论:(0)  加入收藏
谷歌竞价需要SEO吗?探讨SEM和SEO的关联性
谷歌竞价需要SEO吗?这是一个值得深思的问题,因为它涉及到如何在谷歌搜索引擎上获得最大的曝光率。谷歌Ads和谷歌SEO,看似不同,但实际上它们是相辅相成的。只有充分理解和运用这...【详细内容】
2024-01-05  郑州白帽子网络科技谷歌竞价需要SEO吗?探讨SEM和SEO的    Tags:谷歌竞价   点击:(105)  评论:(0)  加入收藏
用 AI 重新定义搜索,Perplexity完成 7360 万美元 B 轮融资
IT之家 1 月 5 日消息,Perplexity AI 近日发布公告,表示完成 B 轮融资,成功筹集 7360 万美元(当前约 5.28 亿元人民币),众多大佬纷纷为这个明星公司站台。完成本次融资后,公司估值...【详细内容】
2024-01-05    IT之家  Tags:Perplexity   点击:(80)  评论:(0)  加入收藏
揭秘搜索引擎:为何搜不到你的企业?SEO优化真的能帮你提升排名吗?
导语:在这个信息爆炸的时代,搜索引擎成为了我们获取信息的主要途径。然而,你是否曾遇到过在搜索引擎中无论如何也找不到自己企业的情况?这究竟是怎么回事?SEO优化是否真的能提升...【详细内容】
2024-01-04  易华合讯     Tags:搜索引擎   点击:(77)  评论:(0)  加入收藏
站内最新
站内热门
站内头条