PresentAgent可将论文、报告等长文档一键转换成带有真人语音和同步幻灯片的演示视频,流程包括撰写提纲、制作PPT、录音及合成。经过30份文档的对比测试,PresentAgent在内容准确性、视觉清晰度和观众理解度方面均接近人类水准,能大幅节省老师及商务人士制作PPT和录音的时间。
演示是一种高效且有力的信息传递方式,通过结合视觉元素、结构化的讲解和口头解释,使信息逐步展开,便于不同受众理解。
尽管效果显著,但将长篇文档(如商业报告、技术手册等)制作成高质量演示视频需要耗费大量人工精力。这个过程包括内容筛选、幻灯片设计、讲稿撰写、语音录制及整合。
尽管AI在文档转幻灯片和文本转视频方面取得进展,但存在生成静态视觉摘要或无序视频片段的问题,难以满足需要结构化讲述的演示任务。
为弥补这一空白,澳大利亚人工智能研究所和英国利物浦大学的研究人员提出了“文档到演示视频生成”的新任务,旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示。
论文链接:https://arxiv.org/pdf/2507.04036;代码链接:https://github.com/AIGeeksGroup/PresentAgent
该任务的挑战在于选择性内容抽象、基于布局的视觉规划以及视觉与语音的精确多模态对齐。
图1:PresentAgent 概览。
图2:评估基准中的文档多样性
与以往只关注静态幻灯片生成或单一语音摘要的方法不同,研究人员的目标是构建一个完整集成的视频体验,模拟人类演讲者的信息传递方式。
图3:方法框架概览
上图左侧展示了多样的输入文档(如论文、网站等),PresentAgent能生成带讲解的演示视频,输出为同步的幻灯片和音频。右侧设计了PresentEval评估框架,包含客观测验评估和主观打分评估。
为应对上述挑战,研究人员提出了一个模块化生成框架——PresentAgent。其流程包括将输入文档语义分块、生成具有布局指导的幻灯片视觉内容、重写为口语化解说文本及语音合成后与幻灯片同步生成视频演示。
值得一提的是,整个流程具有可控性和领域适应性,适用于多种文档类型和演示风格。
图4:PresentAgent框架概览
研究人员构建了一个包含30个长文档的测试集,涵盖教育、产品说明等主题。所有生成与人工视频均使用PresentEval框架进行评估。采用分段评估策略:客观评估阶段使用Qwen-VL回答多项选择题;主观评分阶段针对内容质量、视觉及听觉质量打分。
表3展示了评估结果,涵盖事实理解能力和基于偏好的视频及音频输出质量评分。大多数PresentAgent变体与人工基准结果相当甚至更优。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437301.html