当前位置:首页 > 科技资讯 > 正文

Thinking Machines发布重磅研究:克服大模型推理不确定性

刚刚,估值已冲破120亿美元的Thinking Machines,终于发布了他们的首篇研究博客

创始人、前OpenAI CTO Mira Murati亲自宣发,众多公司大佬纷纷转推。以下是研究主题的亮点:

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第1张

研究主题是“Defeating Nondeterminism in LLM Inference”,即克服大语言模型推理中的不确定性

大模型每次的推理结果难以复现,根源在于批次不变性。为了解决这一问题,Thinking Machines深入研究了其背后的原因。

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第2张

不鸣则已,一鸣惊人,万字长文揭示谜底。同时,Thinking Machines还致敬了“连接主义”——

Mira和她的同事们认为,科学因分享而更加卓越。他们将保持对研究成果的分享,并与研究社区保持频繁、开放的联系。

而翁荔在转发推文中透露了Thinking Machines的第一代旗舰产品名为Connection Machine

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第3张

(CloseAI膝盖又中了一枪)

破解LLM推理中的非确定性

众所周知,LLM推理中,获取可复现结果相当困难。例如,多次向ChatGPT提出相同问题,结果可能不同。

即使将采样温度降至0,理论上LLM会选择概率最高的token输出,但实际上仍存在不确定性。

过去普遍认为这是由于浮点非结合性和并发执行之间的某种组合导致。但Thinking Machine研究发现,其实罪魁祸首是批次不变性

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第4张

研究发现,浮点数计算存在数值差异的原因确实是浮点数非结合性。而批次不变性是指单个请求的输出不应受到同一批次中请求数量的影响。

要解决这一问题,需要让RMSNorm、矩阵乘法、注意力机制分别具备批次不变性。

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第5张

在RMSNorm中,重点是要固定好每个批次元素的归约顺序而不受批次大小影响。而在矩阵乘法中,则需要将输出张量拆分为2D块,为每个块分配不同的核心。

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第6张

同时,注意力机制也需要更新KV缓存和页表,确保归约顺序不变。

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第7张

强大的AI梦之队

再来说说Thinking Machine这支AI梦之队

虽然尚未有具体模型产品产出,但人才和资本都非常豪华。掌舵人Mira Murati在OpenAI一路晋升至CTO,主导了GPT系列的技术开发。

Thinking Machines发布重磅研究:克服大模型推理不确定性 Machines 大语言模型 不确定性 批次不变性 第8张

联合创始人及首席科学家John Schulman是PPO算法的开发者,在强化学习领域举足轻重。