当前位置:首页 > 科技资讯 > 正文

AI与可观测技术:双向赋能与未来展望

AI与可观测技术:双向赋能与未来展望 AI 可观测技术 双向赋能 自治运维 第1张

随着LLM的推理能力与生成式AI的数据理解能力的融合,可观测技术正迎来前所未有的变革。同时,可观测技术也在反哺AI领域,两者间形成了深度的双向赋能关系。那么,AI与可观测技术是如何相互作用的?AIOps又是如何从理论走向实践的呢?

近期,InfoQ《极客有约》携手AICon直播栏目特别邀请了阿里云可观测技术架构负责人、高级技术专家张城担任主持人,与阿里云算法专家李也博士、字节跳动Dev-Infra观测平台算法负责人董善东博士、小红书可观测团队负责人王亚普QCon全球软件开发大会2025上海站即将召开之际,共同探讨AI时代可观测的新边界。

部分精彩观点总结如下:

  • 传统可观测主要聚焦于“看见”,而未来的运维范式则有望实现“发现—分析—解决—复盘”的完整闭环。在此过程中,可观测系统正逐渐从单纯的“眼睛”角色,转变为同时具备“大脑”和“手”的综合性角色。
  • 唯有通过贴近真实场景的评测标准,并在大量真实案例中验证模型表现,确保其在需要时坦诚表示“不会”,才能逐步建立起对AI的信任机制。
  • “垃圾进,垃圾出”的定律在AI时代不仅没有失效,反而因LLM对数据规模和质量的高度依赖而被显著放大。
  • 在接下来三到五年内实现“半自治”运维是可行的,部分场景中甚至能实现闭环自动化。但要达到完全自治,实现所谓的“咖啡式运维”,仍有一段很长的路要走。

以下内容基于直播速记整理,经InfoQ删减。

完整直播回放可查看:https://www.infoq.cn/video/YOTeVHta0A3Xqq2l4Bbp

张城:各位嘉宾,AI正在给可观测性本身带来哪些根本性的、不同于以往的改变呢?

李也:一是 “AI for 可观测”。过去,我们需要手动编写SQL来提取和分析数据。现在,只要为大模型提供清晰的上下文和数据格式,它就能自动生成SQL、配置大盘和定时任务。在上下文充足时,大模型的准确率可达80%-90%,甚至超过不熟悉SQL的工程师。这意味着数据的提取方式已被彻底改变。

在更复杂的探索性、关联性分析方面,AI同样能提供助力。例如,将复杂的系统场景截图交给大模型,其分析结果有时优于新手工程师。虽然它目前还无法替代专家进行根因分析,但已能显著提升所有工程师的工作效率。

二是 “可观测 for AI”。AI系统的出现带来了新的可观测需求。大模型的每次调用都会产生成本,因此生成的所有trace数据都会被保留,这大幅增加了存储需求。同时,AI系统的分析和诊断也更加复杂。

董善东:LLM为可观测领域提供了一个通用的“大脑基座”,显著改变了传统AIOps的实施方式。

LLM在多模态理解与融合方面表现出色,其效果提升与反馈机制也更加高效。以异常检测为例,传统方法多局限于单一指标,而LLM能够综合指标、日志、追踪等多类数据,实现更全面的异常判断。

王亚普:AI训练过程出现问题时,常常表现为整体“卡住”,这使得系统稳定性和复杂度显著增加。过去的可观测主要依赖规则和阈值告警,针对已知问题;而AI的引入让系统具备一定的语义理解和推理能力,可以对未知问题进行可解释、可验证的分析。

董善东:衡量一个AI Agent的智能,得分成通用能力和专属能力两块来考虑。对于专属能力,这里则更需要考虑它解决实际问题的实战能力。以观测领域场景的RCA为例,我个人简单对AI Agent的粗略分级如下:

  • L1 +:单点增强:在某一个具体的问题上,分析流程还是以前的流程,但是AI Agent可以协助做一些环节的分析增强。
  • L2:自主性解决问题。RCA完全Agent化。
  • L3:学习。可以自行阅读团队内的文档、资料,进行知识提取和学习。

李也:实战能力更为重要,实验室评测应尽可能贴近真实场景。目前一些大模型榜单存在“刷榜”现象。

王亚普:传统算法尚未遇到天花板,其最大优势在于确定性。但大模型的出现带来了质的变化,主要体现在学习与提效能力上。

张城:未来的可观测平台技术栈里,大模型和传统算法会是什么关系?是“取代”,是“互补”,还是某种新的“协同”模式?

王亚普:传统算法与大模型之间的关系并非对立,而是分工协作、优势互补。

李也:针对“取代关系”这个问题,我想用“排除法”来讨论。首先排除大模型取代传统算法的可能性。传统算法和CPU算子已经能很好地处理线上约80%–90%的场景。

董善东:我理解的还是互补和增强的协同关系。一方面,在很多观测场景下,小模型在执行的效率、准确率上都已经非常不错;另外一方面,大模型确实在很多地方又可以来增强小模型。

张城:当AI的诊断甚至决策建议摆在我们面前时,我们敢不敢相信?各位在实践中是如何解决这个“信任”难题的?

李也:信任与评测体系密切相关。只有当我们拥有贴近真实场景的评测标准,并在大量真实案例上验证模型的表现时,才能真正建立起对AI的信任机制。