由香港大学与浙江大学等机构组成的研究团队共同推出了「变量自适应专家混合模型(VA-MoE)」。这一创新框架通过分阶段训练与变量索引嵌入技术,引导不同专家模块聚焦于特定气象变量类型,当需要新增变量或观测站点时,无需进行全面重新训练即可实现模型灵活扩展,在确保预报精度的同时显著降低了计算资源开销。
天气预报作为支撑社会运转与防灾决策的核心领域,一直面临大气系统复杂多变所带来的巨大挑战,每一次预报能力的提升都对人类社会活动具有重要影响。长期以来,数值天气预报(NWP)始终是该领域的主流方法,它基于大气动力学方程组,通过求解偏微分方程来模拟温度、气压、风速等关键气象要素的演变过程,从而实现对天气系统的数值化推演。
近年来,随着人工智能技术的飞速进步,深度学习凭借其强大的时空模式识别能力,在气象建模中展现出巨大潜力,推动了「气象人工智能(AI4Weather)」这一新兴交叉学科的兴起。然而,现有AI气象模型大多基于一个理想化假设——即所有气象变量在训练和预测阶段均能同步获取。这与实际观测中数据来源多样、采集频率不一致的现实情况存在显著差异。例如,高空温度数据通常依赖卫星或探空仪获取,更新速度较慢;而地面降水、风速等则由密集分布的监测站点实时采集。这种数据异步性导致模型在引入新变量时,必须进行全量重新训练,带来了极高的计算成本。
为应对这一挑战,香港大学、浙江大学等研究机构提出了「增量天气预报(IWF)」的全新范式,并开发了「变量自适应专家混合模型(VA-MoE)」。该模型通过分阶段训练与变量索引嵌入机制,使得不同专家模块能够专注于特定类型的气象变量,当新增变量或站点时,无需全量重训即可完成模型扩展,在保障预报精度的同时大幅减少了计算开销。
相关研究成果以「VA-MoE: Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting」为题,已被计算机视觉领域国际顶级会议ICCV25接收。
研究亮点:
* 首次对天气预报增量学习新范式进行系统性探索,构建了可量化评估模型扩展性与泛化能力的基准
* 提出首个专为增量大气建模设计的框架VA-MoE,通过变量索引嵌入驱动的上下文变量激活实现专家专业化
* 基于ERA5数据集的大规模实验表明,在数据量减半、参数量缩减至25%的条件下,VA-MoE在高空变量预报中显著优于同类模型
论文地址:https://arxiv.org/abs/2412.02503
该研究以欧洲中期天气预报中心(ECMWF)发布的权威大气再分析数据集ERA5作为实验基础,覆盖了1979年至今的连续气象观测记录,常规实验采用0.25°空间分辨率(对应网格尺寸721×1440);仅在消融实验中,为控制计算复杂度,采用1.5°分辨率版本(网格尺寸128×256),以确保不同实验场景下数据适配性与计算效率的平衡。
从时间维度划分,数据集被明确分配至实验的不同阶段:
* 初始训练阶段采用1979-2020年的40年数据,为模型奠定基础气象知识储备;
* 增量训练阶段使用2000-2020年的20年数据,适配新变量引入后的参数优化需求;
* 测试阶段则选取2021年全年气象变量数据,以独立数据验证模型在未见过样本上的泛化能力,避免数据泄露对结果可信度的影响。
* 在变量配置上,如下图所示,实验共涉及5个高空变量(Upper-Air Variables)与5个地面变量(Surface Variables):
* 高空变量:包含Z(位势高度)、Q(比湿)、U(东西向风速)、V(南北向风速)、T(温度)5种类型,每种类型均定义在13个不同气压层上,主要用于模型初始训练阶段,构建核心大气动力学建模能力;
* 地面变量:含2米气温T2M、10米东风速U10、10米南风速V10、平均海平面气压MSL、地面气压SP等,作为增量变量,在模型第二阶段(增量训练阶段)引入,模拟实际观测中变量动态扩充的场景。
大气变量概要
VA-MoE的核心运行逻辑围绕「两阶段训练范式」展开,如下图所示,其完全模拟实际观测中「数据逐步扩充」的场景:第一阶段为「初始阶段」,仅使用高空变量训练模型,让模型先掌握大气高层的核心动力学规律;第二阶段为「增量阶段」,在冻结第一阶段已训练参数的前提下,加入地面变量,仅训练为新变量新增的模块,最终形成完整模型。
初始阶段(左)和增量阶段(右)的说明
从架构基础来看,如下图所示,VA-MoE以Transformer为核心骨干网络,但针对气象数据的多尺度、强关联特性做了关键优化。模型处理输入数据时,编码器提取的输入特征首先经过归一化层(normalization layer)和自注意力层(self-attention layer),自注意力层的输出与残差连接融合;随后经过另一归一化层,再输入VA-MoE核心模块进行变量自适应计算。为避免深层网络训练中「梯度消失」导致的知识断层,框架还集成了「残差连接(residual connection)」机制:每一步计算后均保留部分原始特征,确保高层网络仍能有效继承低层提取的基础气象信息(如地形对近地面风速的影响),大幅提升了对长期气象序列的建模稳定性。
初始阶段和增量阶段的详细结构
在训练优化层面,VA-MoE采用「多任务联合损失」机制,兼顾预报精度与物理一致性。该机制包含两个核心部分:一是动态预测损失,依据变量的物理特性差异化分配优化权重,对温度、风速等快速瞬变变量赋予更高权重,以强化对瞬时变化的捕捉能力;而对位势高度等缓变变量,则采用渐进式权重调整,以维持长期预报的稳定性,从而克服传统模型导致的关键动力学特征丢失问题。另一方面,模型引入重建损失作为辅助任务,通过编码器-解码器结构要求模型先准确还原原始气象场,在此过程中学习大气能量守恒、质量守恒等本质特征,再进行预报任务。
在此基础上,如下图所示,模型构建了「专精+协同」的专家体系。针对训练阶段的5类核心变量(如Z500、温度、风速等),一方面为每类变量配置独立的「通道自适应专家(Channel-Adaptive Experts, CAE)」,例如温度CAE仅专注于温度的时空演变规律,结合温度的「身份标签」筛选关键特征(如昼夜温差、锋面过境时的温度骤变),通过专业化建模提升单变量预报精度;另一方面设置「共享专家(Shared Expert)」模块,整合所有CAE输出的局部信息,捕捉多变量间的系统级关联(如温度升高→气压降低→风速增强的连锁反应),避免因过度专精导致的「只见树木不见森林」,确保模型能还原大气系统的整体动力学行为。
VA-MoE的图示
为系统评估VA-MoE在气象预报中的实际效能,研究团队围绕「精度、效率与扩展性」3个维度,基于真实气象数据构建了完整的实验体系。
实验核心是将VA-MoE与当前9种主流气象AI模型(包括Pangu-Weather、GraphCast、ClimaX等)进行对比,涵盖500hPa位势高度Z500、10米东风速U10、850hPa温度T850、2米气温T2M等关键变量,重点评估其5天内的预报性能。关键区别在于训练逻辑:对比模型多采用「高空与地面变量一次性联合训练」的传统方式,而VA-MoE采用「先高空、后地面」的两阶段增量策略,从而突显其在变量扩展方面的优势。
在预报精度方面,如下图所示,VA-MoE在地面与高空变量预测中均表现良好。针对T2M、U10等关键地面变量,VA-MoE的预测精度与Stormer、GraphCast相当,并显著优于ClimaX、FourCastNet等模型,在短期至长期预报中均保持稳定。进一步扩展到V10、海平面气压(MSL)等变量时,VA-MoE优势更为明显,仅在T2M上略低于GraphCast,与FengWu、FuXi等主流模型持平。
4个变量下10个模型的RMSE↓对比分析
在训练效率方面,基于40年数据以增量模式训练的VA-MoE,仅需标准迭代次数的一半即可达到相近精度;即便数据缩减至20年、迭代次数降至四分之一,模型仍可维持业务可用的精度,显著降低了变量扩展带来的计算成本。
高空变量预测进一步验证了VA-MoE的增量优势。研究比较了3种训练策略:仅训练高空变量的VA-MoE、增量加入地面变量的VA-MoE(IL),以及传统联合训练模型。结果显示,仅训练高空变量的VA-MoE精度已与GraphCast相当,优于IFS与Pangu-Weather;而增量式VA-MoE在引入地面变量后,未出现对高空变量的预测能力退化,且在500hPa位势高度(Z500)的长期预报中精度有所提升,验证了其「学新不丢旧」的能力。
为进一步验证模型结构有效性,团队设计了消融实验,将VA-MoE与视觉Transformer(ViT)及其专家扩展版本(ViT+MoE)对比。尽管ViT+MoE参数量接近VA-MoE的两倍,但在6小时、3天与5天三个预报节点上,VA-MoE精度仍显著更高,表明其「通道自适应专家」机制在参数量受限场景下仍具优势,尤其适合变量动态扩展的业务环境。
在VA-MoE所关注的「高效适配多变量、降低更新成本与提升预报精度」这一方向上,全球学术界与企业界正形成合力,持续推动气象建模范式的深度革新。
学术界围绕核心技术瓶颈,在模型架构创新与数据利用效率方面取得重要突破。剑桥大学、艾伦·图灵研究所与微软研究院联合开发的「Aardvark Weather」,作为首个完全脱离传统数值框架的端到端AI系统,实现了从多源观测数据到高分辨率预报的直接映射,不仅大幅降低对超算资源的依赖,更将专项模型的开发周期从数月压缩至数周,充分验证了纯数据驱动路径的业务可行性。
复旦大学联合上海科学智能研究院、中国气象局等机构研发的FuXi-Weather系统,则开创性地实现了从卫星亮温到预报结果的完整端到端建模,摆脱了对传统数值模式初始场的依赖,即使在非洲等观测稀疏区域,其预报精度仍稳定超越欧洲中期天气预报中心的HRES系统。
企业界则聚焦于技术落地与场景适配,展现出卓越的工程化能力。谷歌DeepMind推出的GraphCast基于先进的图神经网络架构,在ERA5再分析数据训练后,可在1分钟内完成未来10天的全球天气预报,在1380个测试变量中超过90%的指标精度优于HRES系统,并能提前3天有效识别气旋与大气河流等极端天气信号,其开源策略进一步推动了技术普惠。
论文标题:UT-GraphCast Hindcast Dataset: A Global AI Forecast Archive from UT Austin for Weather and Climate Applications论文地址:https://arxiv.org/abs/2506.17453
微软研发的Aurora大模型采用「预训练-微调」的两阶段策略,凭借13亿参数的灵活架构,在天气、空气质量与海浪预测等多任务中实现89%的综合准确率,计算速度较传统数值模型提升5000倍,通过轻量微调即可快速适配各类业务场景。
展望未来,随着多源观测数据的持续丰富与基础模型的不断进化,气象AI有望在极端天气预警、气候变化评估和专业行业服务等领域发挥更大价值,逐步实现从「辅助预报」到「驱动决策」的角色转变,为人类社会应对天气气候挑战提供更加智能的技术支撑。
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115841.html