当前位置:首页 > 科技资讯 > 正文

Karpathy推出nanochat:以8000行代码复现ChatGPT

AI传奇人物、前特斯拉AI总监Karpathy发布全新开源项目「nanochat」,仅用不到8000行代码即实现ChatGPT全流程,成本仅百美元。该项目在GitHub上线后迅速获得4.2k星标!

AI界巨擘、前特斯拉AI总监Karpathy宣布推出新项目nanochat!

这是一个极简但完整的「从零构建ChatGPT」训练框架。

Karpathy推出nanochat:以8000行代码复现ChatGPT nanochat ChatGPT 开源项目 AI 第1张

Karpathy表示,这是他所做过的最疯狂的项目之一!

这意味着每个人都可以拥有属于自己的ChatGPT。

Karpathy推出nanochat:以8000行代码复现ChatGPT nanochat ChatGPT 开源项目 AI 第2张

项目发布不到12小时,GitHub星标就突破4.2kStar!(且仍在持续上涨)

Karpathy推出nanochat:以8000行代码复现ChatGPT nanochat ChatGPT 开源项目 AI 第3张

GitHub项目地址:https://github.com/karpathy/nanochat

该项目全由社区自发推广,充分体现了Karpathy在AI领域的强大号召力!

Karpathy推出nanochat:以8000行代码复现ChatGPT nanochat ChatGPT 开源项目 AI 第4张

与早期的nanoGPT不同,nanochat不仅涵盖预训练,还囊括了从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程

整个系统仅约8000行简洁代码,启动一台GPU机器、运行一条脚本,4小时后就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy称其为LLM101n的「压轴之作」,未来或将成为研究基线和开源社区的实验平台。

接下来,让我们一起探索如何用这8000行代码「克隆」ChatGPT:

使用全新的Rust实现训练分词器

在FineWeb上对TransformerLLM进行预训练,评估多个指标下的CORE分数

在来自SmolTalk的用户-助手对话、多项选择题、工具使用数据上进行中期训练

进行SFT,在世界知识多项选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上评估聊天模型

使用「GRPO」在GSM8K上对模型进行强化学习微调(RL)

在带有KV缓存的引擎中实现高效推理,简单的预填充/解码,工具使用(在轻量级沙箱中的Python解释器),通过CLI或类ChatGPT的网页界面与其交互。

撰写一份单一的Markdown成绩单,总结并将整个过程游戏化。

项目全程花费低至约100美元(约在一台8XH100节点上训练4小时)

可以训练、克隆一个可以对话的小型ChatGPT,它能创作故事/诗歌、回答简单问题

仅需训练约12小时即可超过GPT-2的核心指标

随着预算增至约1000美元(约41.6小时训练),模型将变得更加连贯,能解决简单的数学/代码问题并做多项选择题

训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)在MMLU上能进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段等。

总结:

$100 → 可训练出能写诗、回答基础问题的OpenAI同款「小型ChatGPT」;

$1,000 → 达到近GPT-2的表现,可进行基础推理与代码生成。

“降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型。”

Karpathy推出nanochat:以8000行代码复现ChatGPT nanochat ChatGPT 开源项目 AI 第5张

项目地址:https://github.com/karpathy/nanoGPT

“我的目标是把完整的‘强基线’栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。”

“nanochat将成为LLM101n(仍在开发中)的压轴项目。”

“nanoGPT教你造大脑,nanochat教你造ChatGPT。”

“如果说nanoGPT是‘Transformer源码教学项目’,那么nanochat则是‘LLM生态系统微缩版’、OpenAI同款、你的专属AI。”

“从Vibe Coding到nanoGPT,再到如今的nanochat,Karpathy不愧是‘AI教育者’的最佳代言人。”