当前位置:首页 > 科技资讯 > 正文

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫?

“在200家AI初创公司中,高达73%的产品仅是‘套壳’应用,核心依赖于ChatGPT、Claude等第三方模型!”

这一数据曝光后,在AI创业领域引发了巨大震动与激烈辩论。

回顾2023年,OpenAI首席执行官Sam Altman曾警告:“单纯套用ChatGPT的模式必将失败。”

然而现实却截然相反:随着ChatGPT的全球火爆,创业浪潮汹涌澎湃,海量资本涌入,部分公司甚至在产品未面世时就获得了惊人关注。

如今,软件工程师Teja Kusireddy通过数据挖掘,揭开了这场“繁荣”背后的另一面。他对200家AI企业进行了逆向工程、代码反编译及API调用追踪,发现许多标榜“颠覆性创新”的公司,其核心功能依然依托外部服务,仅在外层包裹了一层“创新”外壳。市场宣传与实际技术之间的鸿沟令人咋舌。

那么,究竟是投资人“缺乏专业知识”,还是AI初创公司“过度包装”?“自研技术”与“套壳应用”的界限如何界定?接下来,我们将通过Teja Kusireddy发布的详细报告,从他的第一手视角,解读数据揭示的最新发现与结论。

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第1张

启动“逆向工程”调查的缘由

上月,我意外陷入一个深度调查项目,起初只是一个简单疑问,最终却让我对整个AI创业生态的认知产生动摇。

那天深夜两点,我在调试一个webhook集成时,偶然发现了异常情况。

一家声称拥有“自主研发深度学习基础设施”的企业,竟然以每秒数次的频率调用OpenAI的API。

而这家公司刚以“我们构建了独特AI技术”为说辞,从投资者那里筹集了430万美元资金。

那一刻,我决定深入探究这一现象的普遍程度。

调查方法论:具体步骤

我不满足于基于“直觉”的评论,而是追求真实可靠的数据。

为此,我着手构建工具:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第2张

随后三周内,我执行了以下操作:

从YC、Product Hunt和LinkedIn的招聘帖子中,抓取了200家AI初创公司的官方网站;

  • 监控它们60秒内的网络流量会话;
  • 反编译并解析它们的JavaScript打包文件;
  • 将捕获的API调用与已知服务的指纹库进行匹配;
  • 最后,将它们营销页面上的宣传与实际技术实现逐一对比。

我特意排除了成立不足6个月的公司(这些团队可能仍在探索阶段),重点聚焦那些已获得外部融资、并公开宣称拥有“独家技术”的初创企业。

令人震惊的数据发现

结果显示——73%的公司,其宣传的技术与实际实现之间存在显著差距。

200家AI初创公司可划分为以下类别:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第3张

但真正让我意外的不仅是这个数字,而是我并未因此感到愤怒。

接下来,我将逐步分析三种常见模式。

模式一:宣称“自研模型”,实为GPT-4结合简单操作

每当看到“我们自研的大型语言模型”这类说法,我几乎能预测接下来的发现。

在37次验证中,我有34次猜中。

技术特征解析:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第4张

在监控出站流量时,以下迹象十分明显:

  • 用户每次与所谓“AI”交互时,都会向api.openai.com发送请求;
  • 请求头中包含OpenAI-Organization标识;
  • 响应时间与OpenAI的API延迟模式完全吻合(多数查询在150–400ms之间);
  • Token使用量与GPT-4的计费层级一致;
  • 速率限制的指数退避机制也与OpenAI如出一辙。

实际案例曝光

一家声称拥有“革命性自然语言理解引擎”的公司,反编译后,我发现其所谓的“自研AI”仅是以下代码:            

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第5张

如此简单——这套“自研模型”却在他们的融资演示文稿中被提及23次。

  • 没有微调
  • 没有自定义训练
  • 没有创新架构

仅仅是向GPT-4添加了一个“请勿承认你是GPT-4”的系统提示。

该公司的实际成本与定价为:

  • GPT-4 API:每1K输入tokens费用0.03美元,每1K输出tokens费用0.06美元
  • 平均单次查询:约500输入tokens,300输出tokens
  • 单次查询成本:约0.033美元

他们向用户的收费是:单次查询2.50美元(或每月299美元200次查询)

直接成本利润率高达75倍!

更荒诞的是……我发现三家公司代码几乎雷同:

  • 变量名完全相同
  • 注释风格一致
  • “永不提及OpenAI”的指令也一模一样

因此,我推测这些公司可能:

  • 参考了同一教程
  • 雇佣了同一外包工程师
  • 使用了同一创业加速器模板

还有一家公司增加了所谓“创新功能”:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第6张

在给投资人的演示中,他们将此功能称为“智能回退架构”。

个人认为——封装OpenAI的API并无过错,问题在于企业将其标榜为“自研模型”,而实际上仅是API加自定义系统提示的简单组合。

这好比:购买一辆特斯拉,更换徽标后宣称发明了“独家电动车技术”。

模式二:普遍采用的RAG架构(却鲜少承认)

相比第一种模式,这一类更为隐蔽。RAG(检索增强生成)本身具有实用价值,但许多AI初创公司的营销与实际差距更大。

他们吹嘘自己开发了——“先进神经检索 + 自研嵌入模型 + 语义搜索基础设施...”

实际上,他们拥有的是:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第7张

我发现42家公司使用了几乎相同的技术栈:

  • 嵌入模型采用OpenAI的text-embedding-ada-002(而非“自研嵌入模型”);
  • 向量存储使用Pinecone或Weaviate(而非“专有向量数据库”);
  • 文本生成依赖GPT-4(而非“训练的自定义模型”)。

实际代码如下:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第8张

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第9张

并非说技术不佳——RAG确实有效。但将其称为“自研AI基础设施”,就如将WordPress网站标为“定制内容管理架构”般荒诞。

计算单次查询实际成本:

  • OpenAI嵌入模型:每1K tokens费用0.0001美元
  • Pinecone查询:每次0.00004美元
  • GPT-4生成:每1K tokens费用0.03美元
  • 总成本:约0.002美元/次查询

用户实际支付:0.50–2.00美元/次查询

API成本利润率达250–1000倍!

我发现12家公司代码结构完全一致,另23家公司相似度超90%。

唯一区别是变量名,以及选用Pinecone或Weaviate。

  • 有公司添加Redis缓存,并吹嘘为“优化引擎”
  • 另一公司增加重试逻辑,注册商标为“智能故障恢复系统”

典型初创公司每月运行100万次查询的经济情况:

成本:

  • OpenAI嵌入模型:约100美元
  • Pinecone托管:约40美元
  • GPT-4生成:约30,000美元
  • 总成本:约30,140美元/月

收入: 150,000–500,000美元/月

毛利率:80–94%

这是糟糕的生意吗?不,毛利率极高。

但这是“自研AI”吗?也不是。

模式三:宣称“微调自研模型”,实际情况是……

微调听起来高端,且在某些场景确实有效。但我发现的真相是:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第10张

正从零训练模型的公司仅占7%。令人钦佩!我观察了他们的基础设施:

  • AWS SageMaker或Google Vertex AI的训练任务
  • 训练模型文件存储在S3桶中
  • 自定义推理端点
  • GPU实例监控

其余多数公司仅使用OpenAI的微调API,本质是——付费让OpenAI保存其提示和示例。

快速识别“套壳公司”的30秒指南

若想验证我的发现,无需三周调查,以下是快速识别技巧:

迹象一:网络流量

打开开发者工具(F12),切换至Network标签,与AI功能交互。若看到以下请求:

  • api.openai.com
  • api.anthropic.com
  • api.cohere.ai

那便是「套壳公司」。他们可能添加中间件,但AI非其所有。

迹象二:响应时间模式

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第11张

OpenAI的API具有独特延迟特征。若每次响应在200–350ms间,基本可确定为OpenAI服务。

迹象三:JavaScript打包文件

查看网页源码,搜索以下关键词:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第12张

我发现12家公司将API密钥遗留前端代码中。我进行了举报,但无一回应。

迹象四:营销话术矩阵

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第13张

规律明显:

  • 具体技术术语 = 可能真实
  • 模糊营销词汇 = 很可能掩饰

若仅使用“先进AI”、“智能引擎”等模糊词,缺乏技术细节,通常暗示问题。

基础设施的真实图景

实际上,AI初创公司的技术格局大致如下:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第14张

为何此事至关重要?

或许你在想:“无所谓?能用即可。”

部分正确,但深层影响更大:

  • 对投资人:你在资助提示工程,而非AI研究。估值需调整。
  • 对客户:你支付的是API成本加高溢价。事实上,你可能一个周末就能搭建类似产品。
  • 对开发者:门槛低于想象。你羡慕的“AI初创公司”?其核心技术可能在黑客马拉松中就能实现。
  • 对整个生态:当73%的“AI公司”夸大或误导技术实力,我们已身处泡沫之中。

套壳模式(并非所有套壳皆坏)

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第15张

聪明的套壳公司并不撒谎,它们实际在做:

  • 特定领域工作流
  • 更优用户体验
  • 巧妙模型编排
  • 有价值数据管道

它们仅底层使用OpenAI,这无可厚非。

那27%做对的公司

重点介绍那些诚信企业:

第一类:透明套壳公司

首页明确标注“基于GPT-4构建”。它们销售工作流,而非AI本身。案例如:

  • 法律文档自动化(GPT-4 + 法律模板)
  • 客服路由系统(Claude + 行业知识)
  • 内容工作流(多模型 + 人工审核)

第二类:真正的构建者

这些公司实际训练模型:

  • 医疗AI(符合HIPAA的自托管模型)
  • 金融分析(定制风险模型)
  • 工业自动化(专用计算机视觉模型)

第三类:创新者

在现有基础上开发真正新技术的公司:

  • 多模型投票系统,提升准确性
  • 带记忆的自定义智能体框架
  • 新型检索架构

这些公司宣传时会详述架构,因为它们确实自主开发。

我的收获(以及你的须知)

经过三周对AI初创公司的逆向工程,我总结如下:

  • 技术栈本身非关键,解决的核心问题更重要。我发现的一些优秀产品“仅是”套壳。它们拥有卓越用户体验、解决真实问题,且方式坦诚。
  • 但诚信至关重要。聪明套壳公司与欺诈公司的区别在于透明度。
  • AI热潮正制造错误激励。创始人因投资人与客户期望,被迫宣称“自研AI”。这种状况需改变。
  • 基于API构建并不可耻。每个iPhone应用都是“封装iOS API”的产物,我们不在意。我们关心的是实用性。

真正考验:你能自行复现吗?

我的评估框架如下:

AI初创公司套壳真相调查:73%产品实为第三方API包装,创新还是泡沫? AI套壳现象  创业泡沫 技术透明度 投资风险 第16张

  • 若你能在48小时内复刻其核心技术,它们便是套壳公司。
  • 若它们对此诚实,则无问题。
  • 若它们撒谎——务必远离。

实用建议

对创始人:

  • 坦诚说明技术栈
  • 在用户体验、数据与行业知识上竞争
  • 勿声称未做之事
  • “基于GPT-4构建”并非弱点

对投资人:

  • 要求查看架构图
  • 索取API账单(OpenAI发票不会骗人)
  • 合理评估套壳公司
  • 奖励透明度

对客户:

  • 检查网络流量(Network标签)
  • 询问基础设施细节
  • 勿为API调用支付10倍溢价
  • 基于效果而非技术宣传评估

无人明说的真相

多数所谓“AI初创公司”,实为依赖API成本而非员工成本运营的服务型企业。

这并无不妥。

但应如实称呼。

未来趋势

AI套壳时代不可避免。我们在其他领域经历过类似周期:

  • 云基础设施(每家公司都声称“自建数据中心”)
  • 移动应用(人人自称“原生”,实为混合开发)
  • 区块链(每家公司都“基于区块链”开发)

最终,市场将成熟。务实开发者胜出,欺诈者曝光。

目前,我们正处混乱中间阶段。

最终思考

逆向分析200家AI初创公司后,我反而对该领域更乐观而非失望。

  • 那27%真正研发技术的公司,表现卓越。
  • 聪明的套壳公司也在解决真实问题。
  • 即使存在误导的公司,也有不错产品,仅需调整营销。

但我们需要让AI基础设施的诚实成为常态。使用OpenAI的API不意味着你不是开发者。撒谎才会损害信誉。

打造酷产品,解决真实问题,使用任何有效工具。只是勿将提示工程吹嘘为“专有神经网络架构”。

调查心路历程

在博客文末,Teja Kusireddy分享了调查后的经历:

  • 第1周:原以为约20–30%公司使用第三方API,但过于天真。
  • 第2周:有创始人联系,询问“如何进入其生产环境”。实际上,Teja Kusireddy未入侵,一切均通过浏览器网络面板可见,这些企业未料到有人查看。
  • 第3周:两家公司要求Teja Kusireddy删除发现内容。
  • 昨日:一位VC询问能否在下次董事会前审查其投资组合公司,Teja Kusireddy同意。

Teja Kusireddy表示,后续将在GitHub公开调查方法论、完整抓取基础设施、API指纹识别技术、可运行检测脚本及各大AI API响应时间模式等。

三周内,Teja Kusireddy称唯一结论是:市场终将奖励透明,哪怕初始可能惩罚它。他还透露,内容发布后:

7位创始人私下联系,有的防御,有的感激。

三家公司请求帮助,将营销从“专有AI”改为“基于顶级API开发”。

一位创始人坦言:“我知道我们在撒谎,投资人期望如此,人人这样做。我们该如何停止?”

“AI淘金热不会终结,但诚实时代必须开启,”Teja Kusireddy说道,“若你有兴趣,可打开开发者工具,查看网络面板,自行验证。真相,就在F12之下。”

来源:https://pub.towardsai.net/i-reverse-engineered-200-ai-startups-73-are-lying-a8610acab0d3