当前位置:首页 > 科技资讯 > 正文

2025年AI发展重心转移:多模态模型崛起与文本模型优化并行

2025年AI发展重心转移:多模态模型崛起与文本模型优化并行 AI爆点转移  多模态生成模型 文本模型稳态工程 视觉应用投资 第1张

图片来源:界面新闻

2025年,人工智能领域的创新热点正经历显著转换。

自上半年DeepSeek R1在行业引发广泛关注后,专注于“纯文本+推理”范式的模型较少出现突破性进展。进入下半年,业界讨论焦点明显转向多模态人工智能领域。

OpenAI将Sora 2整合为可交付应用,谷歌发布了图像编辑功能更强大的Nano Banana;在AI智能体方面,继Manus这类文本导向的通用产品后,同样引发高度关注的是专注于视觉创作场景的LoveArt。

这一现象背后,文本模型的进化进入一个基础水平较高、渐进式提升的阶段,而多模态的理解与生成能力在实用性上,正逐步接近“破圈”临界点。

一位从事模型研发的专家向界面新闻表示,理解这一趋势需认识到文本与多模态两个方向的研究是同步推进而非先后进行。

经过GPT-3、GPT-4、OpenAI o1等关键阶段后,大型语言模型的理解能力已足以支持消费者端应用,后续改进主要集中在稳定性工程,如对齐、成本降低、延迟优化、鲁棒性提升等。这些优化能进一步改善C端体验和B端商业价值,但用户感知不再像GPT-4问世时那样具有颠覆性冲击。

一个代表性案例是DeepSeek-OCR。该项目于10月20日发布,旨在探索文本的视觉压缩能力(光学上下文压缩)。简而言之,随着输入上下文增加,模型计算量呈平方级增长,但通过将长文本转换为图像识别,可大幅减少token计算量。这一思路若成功应用于实践,将成为一个前景明确的降本增效路径。

多模态领域则截然不同,其能力曲线仍处于可被广泛感知的提升区间。不过,上述专家指出,从并行视角看,多模态模型尚未实现架构层面的革命性突破,更多是数据积累和训练技巧的成果。

2025年AI发展重心转移:多模态模型崛起与文本模型优化并行 AI爆点转移  多模态生成模型 文本模型稳态工程 视觉应用投资 第2张

图片来源:界面新闻

正如他对Sora 2和Nano Banana的评价,除了OpenAI对多模态生成产品的初步构想成形,以及谷歌对图像编辑器当前用户需求的精准把握(如针对特定点的精细化修改),两款产品在生成质量上并未实现质的飞跃。

很大程度上,以“文生图、文生视频”为代表的多模态生成领域,其表现优化是以文本模型性能提升为基础的。阶跃星辰创始人兼CEO姜大昕此前接受界面新闻采访时强调,理解与生成的关系是:理解指导生成,而生成监督理解。

一级市场也见证了这种关注点的切换。一位AI领域投资人表示,他感受到今年行业整体投资事件增加,但投资规模下降,这是投资重点从模型层向应用层过渡后,后者市场规模及估值所决定的。

在这其中,今年最引人注目的一笔融资来自应用层视觉创作领域的LiblibAI。10月23日,LiblibAI宣布完成1.3亿美元B轮融资,红杉中国、CMC资本等机构参与,成为今年国内资本市场AI应用赛道最大规模的融资事件。这表明相较于其他领域,该团队的产品市场匹配度更受资本认可。

在未来较长一段时间内,行业可期待的“爆点”或将更多源自多模态领域。

姜大昕一直坚持的观点是,仅有语言智能是不够的,多模态是大模型发展的必经之路。而在这片领域,理解与生成的统一仍是当前的突破难点。

多位受访者曾对界面新闻指出,从模型训练角度,视觉模态比文本模态面临更大挑战。单从数据看,文本表征可在语义上自闭环,但视觉信息表征需先与文本对齐,缺乏天然自闭环的数据,“可能需要几次像ChatGPT、强化学习范式这样的重大技术变迁才能解决。”一位受访者说。

有观点认为,基于更先进的多模态模型,世界模型、具身智能、空间智能等才能取得长足进步,行业才能进一步接近AGI(通用人工智能)。

更现实的考量是,模型决定应用能力上限。在文本模型集中精力降本增效和缓慢提升性能的同时,多模态模型的突破有望为市场带来更多产品市场匹配机会,这将是创业者和投资人眼中更具实际价值的关键变化。