谷歌再度发力搜索领域,这一次,它要让AI如人类般「看见」网页的每一个角落。
不久前,谷歌全面上线了Gemini API的URL Context功能(5月28日已在Google AI Studio中推出),使得Gemini模型能够访问并处理来自URL的丰富内容,涵盖网页、PDF乃至图像。
Google产品负责人Logan Kilpatrick对此赞不绝口,称其为不可或缺的「无脑选项」,并推荐大家默认开启。
那么,关键问题来了:这和我平时直接把链接丢给AI有何不同?感觉我一直就是这么干的。
差别在于处理深度与方式。你直接丢链接,AI通常借助通用浏览器或搜索引擎插件「看」网页,很可能只捕捉到摘要或部分文本。
而URL Context则大相径庭。它是一个专为开发者设计的编程接口(API),当开发者在程序中调用此功能时,他们明确指示Gemini「将URL的全部内容(上限34MB)作为回答下一个问题的唯一、权威上下文」,于是Gemini会进行深度、全面的文档解析,理解整个文档的结构、内容与数据。
以下是它的能力概览:
深度解析PDF:透彻理解PDF中的表格、文本结构乃至脚注。
多模态理解:处理PNG、JPEG等图像,并解读其中的图表与图示。
支持多种网页文件:HTML、JSON、CSV等皆不在话下。
官方API文档提供详尽配置教程,同时可在Google AI Studio直接体验。
Towards Data Science上的一篇文章深入剖析了URL Context Grounding,作者Thomas Reid犀利地称其为「RAG的又一颗棺材钉」。
文章链接:https://towardsdatascience.com/googles-url-context-grounding-another...
RAG是过去几年中提升大语言模型回答准确性、时效性与可靠性的主流技术。由于大模型的知识止于其训练数据,RAG借助一个外部知识库提供最新、特定信息。
传统RAG流程颇为复杂,通常包括:
提取内容:从数据源(如网站、文档)抓取文本。
分块:将长文本切割为更小、更易处理的片段。
矢量化:使用嵌入模型(Embedding Model)将文本块转换为数字向量,捕捉其语义信息。
存储:将这些向量存储在专门的向量数据库中。
检索:用户提问时,系统首先在向量数据库中搜索与问题最相关的文本块。
增强与生成:将检索到的相关文本块作为上下文信息,与原始问题一同输入大语言模型,生成更准确、更具针对性的回答。
Thomas Reid指出,使用URL Context Grounding「无需提取URL文本与内容、分块、矢量化、存储等」。对于处理公开网络内容这一常见场景,它提供了一个极为简易的替代方案。
开发者无需耗费大量时间精力搭建和维护一个由多个组件(数据提取、向量数据库等)组成的复杂管道,只需几行代码即可实现更精准的效果。
在Thomas Reid提供的示例中,Gemini仅凭一个指向特斯拉50页财报PDF的URL,就准确无误地提取出位于第4页表格中的「总资产」与「总负债」数据,这是仅凭摘要无法完成的任务。
以下是我们于Google AI Studio中的测试结果。
作者接着测试了URL Context筛选其他信息的能力。在PDF末尾,有一封写给即将离职员工的信,概述了他们的遣散条款。
信中提到的退出日期用星号(***)标记,屏蔽退出日期的原因在脚注中给出。
根据提供的文件,员工离职协议中的离职日期被标记为「***」,原因在于某些公司视为隐私或机密的特定非关键信息已在公开文件中被有意略去。
该文件包含一条对此做法的澄清说明:「本文档中某些已识别的信息已被略去,因为这些信息并非关键信息且属于公司视为隐私或机密的信息类型,并已用「***」标记以示省略之处。」
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440556.html