当前位置:首页 > 科技资讯 > 正文

AutoMLGen:从代码生成到算法优化的智能飞跃

在编程实践中,大语言模型虽能输出优雅的代码,但在机器学习的实际工程场景中,离真正“夺冠”尚存距离。

因为像AutoML任务与Kaggle竞赛,不仅要生成可运行的代码,还需在数据处理、算法设计层面不断迭代与优化。以往,这一过程多依赖专家经验与反复试错,使模型难以突破瓶颈。

然而,现有的基于大模型的机器学习智能体仍面临两大挑战:

缺乏细粒度的领域先验,导致在广阔的搜索空间中效率低下;

传统的线性或树状搜索结构让不同分支彼此孤立,经验难以共享与复用,限制了智能体的自进化能力。

简而言之,它们能写代码,却还未能“智慧地优化”代码。

在此背景下,上海人工智能实验室携手华东师范大学推出了AutoMLGen——一个融合通用大模型推理与领域知识的智能编程框架。

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第1张

其核心是自研的蒙特卡洛图搜索(MCGS),通过“分支—节点动态融合”打破传统MCTS的孤立局限,让不同搜索分支可共享高价值节点;并结合领域知识库算子级优化,将搜索重点快速聚焦到有效空间,实现轨迹复用、跨分支聚合与过程学习。

AutoMLGen在仅使用DeepSeek-R1模型的情况下,以36.4%的平均奖牌率和18.7%的金牌率登顶MLE-Bench榜单,用标准时长一半(12小时)的计算预算实现“更准、更快、更省”,体现了AI智能体从“代码生成”到“算法优化”能力的转变。

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第2张

AutoMLGen框架:融合知识与图搜索的智能优化引擎

AutoMLGen是一个面向机器学习工程任务的智能优化框架,使大语言模型在代码生成之外,具备了持续优化与经验复用的能力

不同于传统依赖“暴力搜索”的AutoML系统,AutoMLGen以知识为导向、以结构化探索为核心,使智能体能在复杂任务中不断学习、逐步成长。

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第3张

框架由领域知识库蒙特卡洛图搜索细粒度算子库三大模块组成:知识库提供经验启发,图搜索承担动态探索,算子库确保执行稳定,三者协同构建出一个从经验指引→智能探索→方案精修的自进化闭环,真正让AI实现从“生成”走向“优化”的进化飞跃。

领域知识库:让智能体从“零经验”快速觉醒

优秀的机器学习工程师总能凭借经验在模型选型、特征处理和策略设计上做出关键判断。

AutoMLGen将这些经验系统化,构建了覆盖模型层、数据层与策略层的知识库:模型层汇总不同任务下的高效架构与使用要点,数据层聚焦预处理与特征工程技巧,策略层则凝练自Kaggle实战的优化思路。

在任务启动阶段,AutoMLGen会自主判断是否启用领域知识,在保持智能体决策独立性的同时有效缓解冷启动。

进入探索阶段后,它能按需启发式地调用知识片段,在动态试探与自我修正中实现经验迁移与能力觉醒。

MCGS图搜索:在迭代中成长,在融合中优化

传统的搜索算法(如MCTS)虽能在单一路径中平衡探索与利用,但由于分支独立、信息孤立,在复杂任务中效率受限。

AutoMLGen创新性地提出了蒙特卡洛图搜索,在搜索过程中引入图结构,让不同分支的节点和轨迹能够动态融合与共享。

MCGS通过四种核心机制推动智能体的持续进化:

  • 主扩展
  • 分支内演化
  • 跨分支参考
  • 多分支聚合
通过从“线性树”到“图式网络”的跃迁,MCGS让智能体具备了跨分支学习与多解融合的能力

细粒度算子库:连接节点的进化工具

在AutoMLGen中,细粒度算子库承担连接不同方案的角色。它为MCGS提供了一套通用的演化逻辑,让智能体能够在图结构中自由流动。

实验结果与分析

整体性能

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第4张

模块消融分析

消融实验显示,各模块在性能提升中均发挥关键作用。知识库的引入为搜索提供了方向;分支内演化机制让智能体学会反思与修正;跨分支参考与多分支聚合进一步增强了方案融合与知识共享。

现象分析

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第5张

案例展示

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第6张

前景与展望

AutoMLGen:从代码生成到算法优化的智能飞跃 AutoMLGen 机器学习 算法优化 智能编程 第7张