刚刚,估值已冲破120亿美元的Thinking Machines,终于发布了他们的首篇研究博客。
创始人、前OpenAI CTO Mira Murati亲自宣发,众多公司大佬纷纷转推。以下是研究主题的亮点:
研究主题是“Defeating Nondeterminism in LLM Inference”,即克服大语言模型推理中的不确定性。
大模型每次的推理结果难以复现,根源在于批次不变性。为了解决这一问题,Thinking Machines深入研究了其背后的原因。
不鸣则已,一鸣惊人,万字长文揭示谜底。同时,Thinking Machines还致敬了“连接主义”——
Mira和她的同事们认为,科学因分享而更加卓越。他们将保持对研究成果的分享,并与研究社区保持频繁、开放的联系。
而翁荔在转发推文中透露了Thinking Machines的第一代旗舰产品名为Connection Machine。
(CloseAI膝盖又中了一枪)
众所周知,LLM推理中,获取可复现结果相当困难。例如,多次向ChatGPT提出相同问题,结果可能不同。
即使将采样温度降至0,理论上LLM会选择概率最高的token输出,但实际上仍存在不确定性。
过去普遍认为这是由于浮点非结合性和并发执行之间的某种组合导致。但Thinking Machine研究发现,其实罪魁祸首是批次不变性。
研究发现,浮点数计算存在数值差异的原因确实是浮点数非结合性。而批次不变性是指单个请求的输出不应受到同一批次中请求数量的影响。
要解决这一问题,需要让RMSNorm、矩阵乘法、注意力机制分别具备批次不变性。
在RMSNorm中,重点是要固定好每个批次元素的归约顺序而不受批次大小影响。而在矩阵乘法中,则需要将输出张量拆分为2D块,为每个块分配不同的核心。
同时,注意力机制也需要更新KV缓存和页表,确保归约顺序不变。
再来说说Thinking Machine这支AI梦之队。
虽然尚未有具体模型产品产出,但人才和资本都非常豪华。掌舵人Mira Murati在OpenAI一路晋升至CTO,主导了GPT系列的技术开发。
联合创始人及首席科学家John Schulman是PPO算法的开发者,在强化学习领域举足轻重。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441159.html