当前位置：首页 > 科技资讯 > 正文

文本生成AI陷阱：数据湖如何变“污水池”

当你尝试使用文本生成 AI 解决结构化数据问题时，你投资的数据湖就可能变成‘污水池’。——Bill Inmon。

文本生成AI陷阱：数据湖如何变“污水池” 文本生成AI 数据湖商业语言模型 BLM 第1张

根据 Gartner 的研究，85% 的大数据项目都失败了。2023 年，规模达 152 亿美元的数据湖市场增长了 20% 以上，但大多数企业却无法从文本数据中提取价值。

“数据仓库之父” Bill Inmon 将这些失败的实施称为 “污水池” 和 “数据沼泽”。这就是为什么你目前的方法不起作用的原因。那么，什么才是有效的呢？

大语言模型的陷阱正在耗尽预算

供应商一直在推销同样不完善的解决方案：“只需将 ChatGPT 添加到您的数据湖中！”

这个建议会让你付出高昂的代价。

ChatGPT 每天要花费 70 万美元才能维持运营。对于中型应用程序，企业实施每月的运行成本为 3,000 至 15,000 美元。对于处理 10 万次以上查询的组织来说，仅 API 成本每月就高达 3,000 至 7,000 美元。

这还不包括基础设施开销。

但成本并不是真正的问题，根本问题更为严重。

ChatGPT 生成的是文本，而不是结构化数据

当您分析 10,000 张客户支持票时，您不希望 ChatGPT 撰写有关客户感受的文章。您需要结构化数据。

情绪评分、分类问题、趋势指标、可操作的洞察，填充仪表板并推动决策。ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。

以下是 Inmon 的杀手级见解：ChatGPT 的知识中只有 5% 与您的特定业务相关。

文本生成AI陷阱：数据湖如何变“污水池” 文本生成AI 数据湖商业语言模型 BLM 第2张

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。但你却要为这一切付出代价。

ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。

87% 的数据科学项目从未投入生产。不可靠的人工智能使这一问题更加严重。

在企业环境中，可靠性每次都胜过创造力。

Inmon 称之为 “巨大的宇宙笑话”。

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的大型语言模型。

文本生成AI陷阱：数据湖如何变“污水池” 文本生成AI 数据湖商业语言模型 BLM 第3张

保险公司、医疗保健机构、制造公司也都这么做。每个人都在构建庞大的通用模型，但实际上他们只需要其中的一小部分功能。

文本生成AI陷阱：数据湖如何变“污水池” 文本生成AI 数据湖商业语言模型 BLM 第4张

商业语言模型 (BLM) 不是采用通用的万能模型，而是采用精确的方法。

它们恰好包含两个组件：

行业特定词汇 (ISV) ：您所在行业独有的术语

通用商业词汇（GBV）：通用商业语言

这种有针对性的方法与 Gartner 的预测相一致，即企业将转向特定领域的语言模型和可以微调的更轻量级模型。

微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作，与 Cerence 在汽车领域合作，与罗克韦尔自动化在制造业合作。

市场认识到行业特定的人工智能能够带来真正的价值。

文本生成AI陷阱：数据湖如何变“污水池” 文本生成AI 数据湖商业语言模型 BLM 第5张

银行业 BLM 包括：

餐饮业 BLM 包括：

关键的见解是： 这些词汇并不重叠。

<…（续上文）

本文由主机测评网于2026-04-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260438331.html