当前位置:首页 > 科技资讯 > 正文

大语言模型时代落幕:新挑战与AI芯片的未来

「预训练时代已至尾声」,在2024年年底的一场演讲中,一位科技界大牛的声音振聋发聩。

Ilya Sutskever,这位将深度学习与OpenAI推向新高度的领军人物,曾大力推荐并转发了MIT团队的一篇论文《The Platonic Representation Hypothesis》,该论文精准预言了当前的变革:

大语言模型时代落幕:新挑战与AI芯片的未来 大语言模型 AI芯片 预训练时代 多模态统一表征 第1张

他提到,大语言模型实际上是一个多任务目标训练过程,预测下一个Token虽看似简单,实则包含丰富任务。

“多任务目标训练为模型增加了更多约束,引导其寻找更紧致、更高质量的解。”

“模型规模越大,越容易接近全局最优表征,推动表征收敛。”

“虽然扩大规模能实现表征收敛,但不同方法的收敛效率差异巨大。”

不少优秀的CV模型都是从大语言模型中微调而来。跨模态配对数据的关键在于提升表征收敛效率。

“不同模态数据背后,隐藏着与模态无关的通用现实表征。”

寥寥数语揭示了大语言模型的奥秘与局限:通过扩大规模实现更好收敛,更高效地拟合现实世界。但语言只是现实世界的单一映射,并非直接构建和感知。

从“生物计算机”角度看,人脑通过多模态、统一表征高效压缩信息,建模和预测现实世界。

而LLM(大语言模型)则“仅通过语言单一模态建模和预测现实世界”,将词或句转化为向量,在高维向量空间进行模式匹配。这种依靠高维向量的统计拟合技巧,被LeCun戏称为「随机鹦鹉」,众多研究者认为这不是真正的语义理解。

现阶段无法证明LLM预测Token的方式与人脑有本质区别。尽管LLM没有常识,推理能力存疑,却能精准拟合答案。在数据、参数量、算力不断扩大的情况下,其能力惊人,也跨越了大规模实用的门槛。

然而,LLM的数据和参数量不能无限膨胀,效果也不能无限延伸。换句话说,“预训练时代已结束”,意味着有用的人类数据已接近枯竭。

强化学习之父Richard Sutton在《苦涩的教训》中总结,简单算法、发现通用规则、规模化且高度可执行的计算常带来意外效果,并导向重大突破。当前深入研究LLM“底层”的研究者都认同:多模态统一表征的抽象、高度压缩和处理是真正的挑战。

作为离散信号的语言容易被压缩表征,其低垂果实已摘。Open AI迟早要面对李飞飞、LeCun、何恺明等专家,处理难以符号化的连续视觉信息——视觉信号充满“噪声”,有效方法尚属空白,处理难度远超语言。

学术界和产业界正寻求下一个突破——基于多模态信息抽象出统一表征,进行高效压缩、处理、建模,生成与真实三维空间一致的图像和视频流,能完全遵循物理规律的「世界模型」。

耗尽心力的浅层优化可能远不及本质上的“一丁点突破”。在此大胆预测:

更好的数据清洗与配比,

更高质量和数量的数据输入,

更大的参数量与训练算力,

或创新的模型架构、对Transformer的深度改进甚至颠覆,以及在CoT和“后训练”强化学习算法上的进展...

但若仍停留在语言信息符号化压缩范畴,DeepSeek R2很可能只是锦上添花之作。被吊足胃口的资本和产业界,恐怕只有失望。

OpenAI的难题在于如何继续讲故事。而DeepSeek还面临另一个问题:若被迫切换到一个全新算力平台,从零开始的工具链、编译器和优化算法库将带来几何级增长困难。

据外媒消息,DeepSeek在尝试用华为昇腾芯片集群替换之前依赖的英伟达GPU进行R2模型核心训练时,遭遇“持续的技术问题”,导致发布计划推迟。

大语言模型时代落幕:新挑战与AI芯片的未来 大语言模型 AI芯片 预训练时代 多模态统一表征 第2张

尽管华为CloudMatrix 384超节点AI算力集群方案领先市售产品一整代,但昇腾910C却只是两颗昇腾910B“超乎常理的低速CoWoS封装”。这可能导致芯片间带宽比英伟达低10–20倍。如果带宽如此之低,则不能算一颗芯片。

昇腾910C在FP16精度下算力约800TFLOP/s,内存带宽约3.2TB/s。这仅相当于英伟达上一代H100的80%,同时逻辑芯片面积多出60%。

尽管昇腾以“一切可池化”“一切皆对等”“一切可组合”创新设计满足超大规模算力需求,但也面临更多电力消耗、更高发热、更不可预测的通信问题和可靠性挑战,以及三倍于GB200 NVL72的整机系统售价。更不用说CUDA几乎无法追赶的生态优势和编译层面AI算力真实利用率领先的优势。

DeepSeek值得尊敬,但最好降低预期。