当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就可能变成‘污水池’。——Bill Inmon。
根据 Gartner 的研究,85% 的大数据项目都失败了。2023 年,规模达 152 亿美元的数据湖市场增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。
“数据仓库 之 父” Bill Inmon 将这些失败的实施称为 “污水池” 和 “数据沼泽”。这就是为什么你目前的方法不起作用的原因。那么,什么才是有效的呢?
供应商一直在推销同样不完善的解决方案:“只需将 ChatGPT 添加到您的数据湖中!”
这个建议会让你付出高昂的代价。
ChatGPT 每天要花费 70 万美元才能维持运营。对于中型应用程序,企业实施每月的运行成本为 3,000 至 15,000 美元。对于处理 10 万次以上查询的组织来说,仅 API 成本每月就高达 3,000 至 7,000 美元。
这还不包括基础设施开销。
但成本并不是真正的问题,根本问题更为严重。
ChatGPT 生成的是文本,而不是结构化数据
当您分析 10,000 张客户支持票时,您不希望 ChatGPT 撰写有关客户感受的文章。您需要结构化数据。
情绪评分、分类问题、趋势指标、可操作的洞察,填充仪表板并推动决策。ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。
以下是 Inmon 的杀手级见解:ChatGPT 的知识中只有 5% 与您的特定业务相关。
大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。但你却要为这一切付出代价。
ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。
87% 的数据科学项目从未投入生产。不可靠的人工智能使这一问题更加严重。
在企业环境中,可靠性每次都胜过创造力。
Inmon 称之为 “巨大的宇宙笑话”。
美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的 大型语言模型。
保险公司、医疗保健机构、制造公司也都这么做。每个人都在构建庞大的通用模型,但实际上他们只需要其中的一小部分功能。
商业语言模型 (BLM) 不是采用通用的万能模型,而是采用精确的方法。
它们恰好包含两个组件:
行业特定词汇 (ISV) :您所在行业独有的术语
通用商业词汇(GBV)
:通用商业语言这种有针对性的方法与 Gartner 的预测相一致,即企业将转向特定领域的语言模型和可以微调的更轻量级模型。
微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作,与 Cerence 在汽车领域合作,与罗克韦尔自动化在制造业合作。
市场认识到行业特定的人工智能能够带来真正的价值。
银行业 BLM 包括:
餐饮业 BLM 包括:
关键的见解是: 这些词汇并不重叠。
<…(续上文)本文由主机测评网于2026-04-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260438331.html