当前位置:首页 > 科技资讯 > 正文

AI创业泡沫:73%公司仅是“套壳”ChatGPT

“在200家AI初创公司中,73%的产品实际上只是‘套壳’,主要依赖的还是ChatGPT和Claude!”

这一结论无疑给AI创业圈带来了不小的冲击与争议。

回想2023年,OpenAI的CEO Sam Altman就曾直言:“套壳ChatGPT注定消亡。”

然而现实却恰恰相反:随着ChatGPT的爆火,创业热潮一浪接一浪,无数投资涌入,一些公司甚至尚未发布产品就已吸引了不少关注。

如今,一位软件工程师Teja Kusireddy用数据揭开了这场“繁荣”背后的部分真相。他对200家AI公司进行了逆向工程、反编译代码,并追踪API调用,发现许多号称“颠覆性创新”的公司,其核心功能仍依赖第三方服务,只是在外层多套了一层“创新”的壳。市场宣传与实际情况之间的差距令人震惊。

那么,究竟是投资人“完全不懂”,还是AI初创公司“太会忽悠”?“自研”与“套壳”的界限如何而定?接下来,我们将通过Teja Kusireddy发布的长文,从他的第一视角,看看他用数据揭示的最新发现与结论。

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第1张

为什么会发起“逆向工程”?

上个月,我掉进了一个意料之外的“兔子洞”,陷入了迷茫——一开始只是一个很简单的问题,最后却让我开始怀疑自己对整个AI创业生态的认知。

那天是凌晨两点,我在调试一个webhook集成时,偶然间发现了点不对劲的东西。

一家声称拥有“自主研发的深度学习基础设施”的公司,竟然每隔几秒就在调用OpenAI的API。

而这家公司,刚刚凭着“我们构建了完全不同的AI技术”这一说法,从投资人那里融到了430万美元。

就在那一刻,我决定——要彻底查清这件事,到底有多复杂。

调查方法:我是怎么做的

我不想写一篇靠“直觉”发牢骚的热评,我要的是数据,一个真实的数据。

于是,我开始动手搭建工具:

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第2张

接下来的三周里,我做了这些事:

  • 从YC、Product Hunt和LinkedIn的“我们在招聘”帖子中,爬取了200家AI初创公司的官网;
  • 监控它们60秒的网络流量会话;
  • 反编译并分析了它们的JavaScript打包文件;
  • 将捕获到的API调用与已知服务的指纹库进行比对;
  • 最后,把它们在营销页面上宣传的内容与实际的技术实现一一对照。

我特意排除了成立未满6个月的公司(那些团队还在摸索阶段),重点关注那些已经拿到外部融资、并公开宣称有“独家技术”的初创公司。

得到了让我愣住的数据

结果显示——73%的公司,其宣称的技术与真实实现之间存在显著落差。

这200家的AI初创公司可以分为以下几类:

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第3张

但真正让我震惊的,不只是这个数字。更让我意外的是——我甚至没有因此生气。

接下来,进行逐步拆解,可以分为三种模式。

模式 1:所谓“自研模型”,其实只是GPT-4加了点额外操作

每次看到“我们自研的大语言模型”这种说法,我几乎能预判下一步会发现什么。

结果37次里,有34次我猜对了。

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第4张

  • 用户每次与所谓的“AI”互动时,都会向api.openai.com发起请求;
  • 请求头(Request Headers)里包含OpenAI-Organization标识;
  • 响应时间与完全符合OpenAI的API延迟模式(大部分查询150–400ms);
  • Token使用量和GPT-4的计费等级一致;
  • 速率限制的指数退避(exponential backoff)也和OpenAI一模一样。

模式 2:人人都在做的RAG架构(却没人承认)

相比第一种模式,这一类更微妙一些。RAG(Retrieval-Augmented Generation,检索增强生成)本身确实有用,但很多AI初创公司的营销宣传和实际实现之间的差距更为巨大。

  • “先进的神经检索 + 自研嵌入模型 + 语义搜索基础设施...”

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第5张

模式 3:所谓“我们微调了自己的模型”,实际上……

AI创业泡沫:73%公司仅是“套壳”ChatGPT AI初创公司 ChatGPT 套壳 逆向工程 第6张

  • “真正从零训练模型的公司只占7%。”

30秒教你识别“套壳公司”

  • 现象 1:网络流量
  • “api.openai.com”、“api.anthropic.com”、“api.cohere.ai”等请求表明是「套壳公司」。
  • “每次响应都在 200–350ms 之间”,基本可确定是 OpenAI 的服务。
  • “JavaScript打包文件”关键词如 “OpenAI API Key”,可能暴露真相。
  • “具体技术术语 = 可能是真的;模糊营销词 = 很可能在掩饰”。

“基础设施的真实情况”

  • “真正做技术研发的公司只有 27%。”

“我学到了什么(以及你应该知道的)”

  • “技术栈本身没那么重要;诚实很重要;基于API构建并不可耻。”

“我的实际建议”

  • “对创始人:诚实说明技术栈;在用户体验、数据和行业知识上竞争。”
  • “对投资人:要求查看架构图;索取API账单。”
  • “对客户:检查网络流量;询问基础设施细节。”

“那件没人敢明说的事”

  • “大多数所谓的‘AI初创公司’,其实是靠API成本运作的服务型公司。”

“接下来会发生什么?”

  • “市场会成熟;踏实的开发者会胜出。”