当前位置:首页 > 科技资讯 > 正文

突破地理定位技术:SHDD与LocDiff的革新之路

缅因大学、谷歌公司与哈佛大学等组成的联合团队提出了“球面谐波狄拉克函数(SHDD)”及集成框架 LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位,为该领域提供了突破性的技术路径。

位置解码技术通过分析上下文信息推断地理位置,广泛应用于轨迹合成、建筑物轮廓分割和图像地理定位等领域。图像地理定位将视觉内容与地理坐标关联,成为研究热点。然而,传统方法面临复杂的非线性映射问题,难以精准建模。近期,扩散模型等生成式技术为地理定位研究开辟了新路径。

研究人员发现,传统生成方法失效的根本原因在于地理坐标的空间属性不同于常规数据:坐标位于嵌入式黎曼流形而非欧几里得空间,直接施加噪声会导致投影畸变;同时,原始坐标缺乏多尺度空间信息,难以支撑对复杂分布的建模。针对这两大问题,该团队提出了“球面谐波狄拉克函数(Spherical Harmonics Dirac Delta,SHDD)”及集成框架 LocDiff,实现了精准定位。

相关研究成果以“LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space”为题,已收录于 NeurIPS 2025。

突破地理定位技术:SHDD与LocDiff的革新之路 SHDD LocDiff 地理定位 生成式技术 第1张

  • 论文地址:https://openreview.net/forum?id=ghybX0Qlls

数据集:以 GeoCLIP 为基准,扩展三大全球尺度典型图像地理定位数据集

为验证结果可靠性,研究人员遵循 GeoCLIP 模型的基准设置。训练阶段使用 MP16 数据集,包含 472 万张带有精确地理标注的图像。测试阶段选用 Im2GPS3k、YFCC26k 和 GWS15k 三个全球尺度的典型数据集。

Im2GPS3k 与 YFCC26k 数据分布与训练集 MP16 接近,部分图像可能重叠。这一特性使基于检索的方法在匹配过程中具有优势。在模型推理阶段,研究人员借鉴主流模型策略,对每张测试图像生成 16 个增强版本,以其多次采样的地理中心作为最终预测位置。

为全面评估模型在不同空间尺度下的定位能力,该研究设定了 5 个评估层级:街道级(1 公里)、城市级(25 公里)、区域级(200 公里)、国家级(750 公里)和大陆级(2,500 公里),通过统计预测落入真实位置邻域范围内的样本比例来量化模型表现。

LocDiff:面向球面位置生成的潜扩散模型

LocDiff 模型的核心目标是构建适配球面位置生成的潜扩散框架。其思路是通过球面谐波狄拉克函数(SHDD)编码-解码框架、条件 Siren-UNet(CS-UNet)架构及高效计算策略实现。

研究从数学层面界定了理想位置编码空间的核心属性:坐标空间 C 为嵌入三维欧氏空间的单位球面;理想的位置编码器 PE 需是从 C 到高维空间 ℝ^d 的单射函数;解码器 PD 则需是从 ℝ^d 映射回 C 的满射函数。编码空间需通过连续的差异度量 ℰ 实现密集填充,同时解码器需满足稳定性要求。

现有方法在实现上述目标时面临双重困境:若采用稀疏的位置编码空间,扩散模型将难以在其中进行稳定的扩散过程;若使用密集的位置嵌入空间,虽能支撑扩散过程,但高度非线性映射使得反推正确地理坐标的任务陷入僵局。为解决这一困境,研究人员提出了 SHDD 编码方案。

SHDD 编码空间天然具备密集特性:每个点 e 对应一个球面函数 Fₑ,该函数与真实位置所对应球面谐波狄拉克函数的差异通过反向 KL 散度量化。SHDD KL 散度与 Wasserstein-2 距离存在明确约束关系,从数学上保证了编码空间的差异与球面概率分布差异的一致性。

突破地理定位技术:SHDD与LocDiff的革新之路 SHDD LocDiff 地理定位 生成式技术 第2张

基于 SHDD 表征的特性,研究人员设计了模态搜索解码器以实现高效解码。该解码器利用反向 KL 散度的模态搜索本质,通过寻找球面函数概率质量最集中的区域完成坐标反推。

突破地理定位技术:SHDD与LocDiff的革新之路 SHDD LocDiff 地理定位 生成式技术 第3张

LocDiff 的训练流程遵循标准 DDPM 框架,以“图像-球面位置”为训练样本对。推理阶段,模型从随机高斯噪声出发,在输入图像的嵌入特征引导下,通过 CS-UNet 逐步生成 SHDD 系数向量,最终转化为球面坐标。

聚焦 3 大维度,LocDiff 在大多数测试场景下表现优异

为系统评估 LocDiff 模型性能,本研究从定位精度、泛化能力和计算效率 3 个维度展开实验。

实验表明,LocDiff 在大多数测试场景下表现优异。为进一步提升性能,研究人员设计了混合模型 LocDiff-H,结合 GeoCLIP 的检索范围限制在 LocDiff 生成位置的 200 公里半径内。LocDiff-H 在 Im2GPS3k 和 YFCC26k 上表现突出,但在 GWS15k 上不及原始 LocDiff。

突破地理定位技术:SHDD与LocDiff的革新之路 SHDD LocDiff 地理定位 生成式技术 第4张

在与同类生成式模型的对比中,LocDiff 在 OSM-5M 和 YFCC-4k 数据集上均优于 DiffR³、FMR³ 等对比模型。

突破地理定位技术:SHDD与LocDiff的革新之路 SHDD LocDiff 地理定位 生成式技术 第5张

图像地理定位技术的学术突破与产业新生

图像地理定位技术作为连接视觉信息与物理世界的重要桥梁,近年来在学术研究与应用落地方面均取得了显著进展。

学术界方面,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队在球面位置编码方面取得重要突破。他们提出一种基于流形扩散的改进方案,将球谐函数与流形学习相结合。这一创新使模型在极地、大洋等数据稀疏区域的定位性能大幅提升。

论文标题:LocDiffusion: Identifying Locations on Earth by Diffusing in the Spherical Harmonics Dirac Delta Space论文链接:https://arxiv.org/abs/2503.18142

与此同时,阿联酋数字大学提出了“地理思维链”(GeoCoT)框架。GeoCoT 通过模拟人类地理定位的认知过程,显著提升了定位性能。

论文标题:Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework论文链接:https://arxiv.org/pdf/2502.13759

这些学术理念正快速转化为实际生产力。例如,PRISM Intelligence 公司开发的地理空间智能平台利用辐射场技术将二维遥感图像转化为高保真三维数字环境。Google Earth 团队则利用全球街景数据训练的生成模型实现精准位置预测。

这些产业实践不仅验证了学术研究的应用价值,更通过真实场景的反馈为理论创新提供了新方向。