只需100美元成本和8000行代码,一位AI界大神成功手搓出简易版ChatGPT!
特斯拉前AI总监、OpenAI创始成员、现全职投身教育的AI大神Andrej Karpathy沉寂已久,终于带着他的新作nanochat回归了!
据卡帕西本人介绍,nanochat是他写得最“放飞自我”的作品之一。
这是一个极简的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT,从零开始构建。
只需启动一台云GPU服务器,运行一个脚本,最快4小时就能在类似ChatGPT的网页界面与自己训练的大语言模型对话。
整个项目包含约8000行代码,可实现以下功能:
基于全新Rust语言实现,训练分词器(tokenizer)
在FineWeb数据集上预训练Transformer架构大语言模型,并通过多项指标评估CORE得分
在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练(Midtrain)
执行指令微调(SFT),并在世界知识多项选择题数据集(ARC-E/C)、数学数据集(GSM8K)、代码数据集(HumanEval)上评估对话模型性能
可选在GSM8K数据集上通过“GRPO”算法对模型进行强化学习(RL)训练
在推理引擎中实现高效模型推理,支持KV缓存、简易预填充/解码流程、工具使用(轻量级沙箱环境中的Python解释器),可通过CLI或类ChatGPT的WebUI与模型交互
生成单个Markdown格式报告卡,对整个训练推理流程进行总结,并加入“游戏化”呈现(如用评分、进度等形式直观展示结果)
整体成本仅需约100美元(在8×H100上训练4小时),就能训练出可进行基础对话、创作故事诗歌、回答简单问题的简易版ChatGPT模型。
整体表现指标如下:
训练约12小时后,模型在CORE指标上的表现即可超越GPT-2。
若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题,还能做多项选择题。
卡帕西表示,他的目标是将这套完整的“强基线”技术栈整合为统一、极简、易读、可修改、易分发的代码库。
nanochat将成为LLM101n课程的压轴项目(该课程仍在开发中)。
我认为它还有潜力发展为一个研究工具框架或基准测试的工具,就像之前的nanoGPT一样。目前该项目远未完全优化(实际上存在大量可改进空间),但整体框架已足够完整,可以发布到GitHub上,后续所有模块都能在社区中进一步优化。
你发布的不只是代码,更是可被理解的智慧,价值爆炸,栓Q。
在评论区,卡帕西还解释了nanochat基本架构与Llama类似,但更简化一些,也借鉴了部分modded-nanoGPT的设计,整体是为此规模的模型找到一个稳健的基础架构。
以及这个项目基本上是完全手写的。
我确实尝试过用Claude或Codex之类的Agent来帮忙,但效果非常糟糕,几乎毫无帮助。可能是因为这个repo的结构偏离了它们训练数据的分布,所以它们根本“对不上号”。
卡帕西曾任特斯拉AI主管,之后加入OpenAI,去年离职后投身教育事业。
他凭借一系列高质量课程和教程在AI界赢得了超高人气。
如果我们成功了,任何人都将易于学习任何东西,扩大教育这个概念本身的“范围”和“程度”。
(GitHub项目截图)
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542619.html