当前位置:首页 > 科技资讯 > 正文

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第1张

在10月14日凌晨,AI领域的知名专家安德烈·卡帕西(Andrej Karpathy)正式发布了他的最新开源项目——名为"nanochat"。他自豪地称其为“最不受约束”的疯狂项目之一。

不同于早期仅涵盖预训练的nanoGPT,全新的nanochat是一个极简且完整的全栈训练/推理流程,通过最小依赖的单一代码库,实现了一个简易版ChatGPT的完整构建。

使用nanochat非常简单:只需租用云GPU服务器,运行单个脚本,最快在4小时后,便能在类似ChatGPT的网页界面中与训练的大语言模型(LLM)进行对话。

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第2张

nanochat是什么?

从卡帕西提供的原理来看,Nanochat整合了从零开始制造一个Chatbot所需的所有步骤和工具,具体包括:

1. 数据准备: 从原始网络文本(如FineWeb数据集)开始,创建分词器(tokenizer),将海量文本转换为模型能理解的数字。

2. 模型预训练: 在大规模数据上训练一个基础的Transformer模型,使其学习语言的语法、事实和基本推理能力。这是耗时且核心的一步。

3. 对齐微调:

  • a. 指令微调: 使用高质量的问答、对话数据,教模型如何像一个助手一样遵循指令、与人对话。
  • b. 强化学习: (可选阶段)通过奖励和惩罚,进一步提升模型在特定任务(如数学解题)上的表现。

4. 模型推理: 提供一个高效的引擎,让你可以在命令行或一个类似ChatGPT的网页界面中,与亲手训练的模型进行实时对话。

5. 评估: 训练完成后,系统会自动生成一份详细的“成绩单”(报告),展示模型在多个标准测试(如数学、代码、常识推理)上的表现。

Karpathy之前的nanoGPT项目主要关注第2步:模型预训练。它是一个极简的GPT模型训练代码,目的是为了让大家理解大模型的训练过程。

nanochat则是一个全栈(Full-Stack)项目,它不仅包含了nanoGPT的预训练部分,还补全了后续所有关键步骤(指令微调、强化学习、推理、UI界面),最终交付一个可以实际对话的聊天机器人。

实现这一切,仅依靠卡帕西手敲的8000行代码。

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第3张

nanochat的意义与成本效益

首先是教育和学习:它是目前理解“如何从零构建一个ChatGPT”的最佳学习资料。它让普通开发者和研究者有机会用相对低廉的成本亲手“烹饪”出一个属于自己的小型聊天模型,并完整地体验从原始文本到智能对话助手的全过程。

其次是研究和实验平台:为研究人员提供了一个轻量级、可控、可复现的实验平台。他们可以在这个框架上快速测试新的模型架构、训练方法或对齐技术,而不必动用昂贵的大规模计算资源。

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第4张

这真是太棒了。这应该成为硬件评估的新基准——我们只需报告一个有序三元组:

  • ● 端到端训练总成本(美元)
  • ● 端到端训练总耗时(分钟)
  • ● 在特定测试集上的综合性能表现

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第5张

卡帕西的技术揭秘

AI专家卡帕西推出新开源项目nanochat,从零构建ChatGPT nanochat ChatGPT 开源项目 AI训练 第6张