当前位置:首页 > 科技资讯 > 正文

文本生成AI陷阱:数据湖如何变“污水池”

当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就可能变成‘污水池’。——Bill Inmon。

文本生成AI陷阱:数据湖如何变“污水池” 文本生成AI 数据湖 商业语言模型 BLM 第1张

根据 Gartner 的研究,85% 的大数据项目都失败了。2023 年,规模达 152 亿美元的数据湖市场增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。

“数据仓库 之 父” Bill Inmon 将这些失败的实施称为 “污水池” 和 “数据沼泽”。这就是为什么你目前的方法不起作用的原因。那么,什么才是有效的呢?

大语言模型的陷阱正在耗尽预算

供应商一直在推销同样不完善的解决方案:“只需将 ChatGPT 添加到您的数据湖中!”

这个建议会让你付出高昂的代价。

ChatGPT 每天要花费 70 万美元才能维持运营。对于中型应用程序,企业实施每月的运行成本为 3,000 至 15,000 美元。对于处理 10 万次以上查询的组织来说,仅 API 成本每月就高达 3,000 至 7,000 美元。

这还不包括基础设施开销。

但成本并不是真正的问题,根本问题更为严重。

ChatGPT 生成的是文本,而不是结构化数据

当您分析 10,000 张客户支持票时,您不希望 ChatGPT 撰写有关客户感受的文章。您需要结构化数据。

情绪评分、分类问题、趋势指标、可操作的洞察,填充仪表板并推动决策。ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。

95%的浪费问题

以下是 Inmon 的杀手级见解:ChatGPT 的知识中只有 5% 与您的特定业务相关。

文本生成AI陷阱:数据湖如何变“污水池” 文本生成AI 数据湖 商业语言模型 BLM 第2张

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。但你却要为这一切付出代价。

对于关键任务决策来说不可靠

ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。

87% 的数据科学项目从未投入生产。不可靠的人工智能使这一问题更加严重。

在企业环境中,可靠性每次都胜过创造力。

企业人工智能军备竞赛无人获胜

Inmon 称之为 “巨大的宇宙笑话”。

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的 大型语言模型。

文本生成AI陷阱:数据湖如何变“污水池” 文本生成AI 数据湖 商业语言模型 BLM 第3张

保险公司、医疗保健机构、制造公司也都这么做。每个人都在构建庞大的通用模型,但实际上他们只需要其中的一小部分功能。

BLM 商业语言模型:外科手术解决方案

文本生成AI陷阱:数据湖如何变“污水池” 文本生成AI 数据湖 商业语言模型 BLM 第4张

商业语言模型 (BLM) 不是采用通用的万能模型,而是采用精确的方法。

它们恰好包含两个组件:

行业特定词汇 (ISV) :您所在行业独有的术语

通用商业词汇(GBV):通用商业语言

这种有针对性的方法与 Gartner 的预测相一致,即企业将转向特定领域的语言模型和可以微调的更轻量级模型。

微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作,与 Cerence 在汽车领域合作,与罗克韦尔自动化在制造业合作。

市场认识到行业特定的人工智能能够带来真正的价值。

现实世界的 BLM 示例

文本生成AI陷阱:数据湖如何变“污水池” 文本生成AI 数据湖 商业语言模型 BLM 第5张

银行业 BLM 包括:

  • 贷款、信用卡、储蓄账户
  • 外汇兑换、出纳、支票
  • 法案合规、付款保证金
  • 存折条目、付款到期日

餐饮业 BLM 包括:

  • 服务模式、菜系(墨西哥菜、中国菜、意大利菜)
  • 餐具、烹饪方法、菜单规划
  • 高级餐厅、牛排馆、快餐类别
  • 厨房运营、服务员管理

关键的见解是: 这些词汇并不重叠。

<…(续上文)