当前位置:首页 > 科技资讯 > 正文

大模型进化:从GPT-2到LLama 4的“膨胀”之路

从GPT-2到Llama 4,大模型这几年的「膨胀」之路究竟有多惊人?从百亿级参数量到稀疏MoE架构,从闭源到开源,Meta、OpenAI、Mistral、DeepSeek……群雄逐鹿,谁能称王?

从传统的稠密架构到如今流行的稀疏专家模型(MoE),语言大模型的发展可谓突飞猛进:

最初参数量只有百亿级别,而现在即便仅激活的参数,也已达数百亿!

从百亿到万亿,参数膨胀的背后,是AI界对Scaling Law的坚定「信仰」。

大模型进化:从GPT-2到LLama 4的“膨胀”之路 大模型 AI模型 参数膨胀 MoE架构 第1张

自2019年GPT-2发布以来,大语言模型(LLM)在参数规模、训练数据量和模型架构上不断实现飞跃。

大模型到底有多大?从2019年到现在,它们经历了怎样的「体重暴涨」?

Github网友rain-1手动总结了基础模型趋势,「不含任何AI生成成分」。他还表示:

近年来,语言模型波澜壮阔,宏大深远。

所记述的不过是其中一个微小片段,如同管中窥豹,可见一斑。

大模型进化:从GPT-2到LLama 4的“膨胀”之路 大模型 AI模型 参数膨胀 MoE架构 第2张

本文旨在客观呈现大语言模型的规模信息。不涉及泄露信息或坊间传闻,仅聚焦基础模型(即原始文本续写引擎,而非ChatBot)。

大模型进化:从GPT-2到LLama 4的“膨胀”之路 大模型 AI模型 参数膨胀 MoE架构 第3张

大模型来时路之GPT系列,OpenAI走向「CloseAI」

主要分为2大阶段:早期密集模型和中期转型与保密期。

早期密集模型(2019-2020):

GPT-2家族:参数从137M到1.61B,训练数据约10B tokens。

GPT-3(175B):首个真正意义上的「大模型」。

中期转型与保密期(2022-2023):

GPT-3.5和GPT-4:未公布参数或数据规模,信息高度保密。

具体而言,GPT-2(2019年)参数规模:

GPT-2-small:1.37亿参数

GPT-2-medium:3.8亿参数

GPT-2-large:8.12亿参数

GPT-2-xl:16.1亿参数

训练数据基于未公开的WebText数据集,约40GB互联网文本,估计约100亿token。

大模型来时路之Llama系列

Llama初代版本规模7B、13B、33B、65B参数。

训练数据方面,官方确认采用了Books3数据集。65B版本预训练使用了1.4万亿(1.4T)token的数据集。

大模型荒原时代

曾经,AI界一度陷入「大模型荒原」——其他模型无法与GPT-3匹敌。

MoE热潮来袭,群雄并起,谁主沉浮?

大模型进化:从GPT-2到LLama 4的“膨胀”之路 大模型 AI模型 参数膨胀 MoE架构 第4张DeepSeek V3 Base的发布无疑是震撼之作。官网描述如下:

:fire: V3新特性 :brain:

:rocket: 6710亿MoE参数 :satellite:

:zap: 370亿激活参数 :books:

尾声:未来在哪里?