“在200家AI初创公司中,高达73%的产品仅是‘套壳’应用,核心依赖于ChatGPT、Claude等第三方模型!”
这一数据曝光后,在AI创业领域引发了巨大震动与激烈辩论。
回顾2023年,OpenAI首席执行官Sam Altman曾警告:“单纯套用ChatGPT的模式必将失败。”
然而现实却截然相反:随着ChatGPT的全球火爆,创业浪潮汹涌澎湃,海量资本涌入,部分公司甚至在产品未面世时就获得了惊人关注。
如今,软件工程师Teja Kusireddy通过数据挖掘,揭开了这场“繁荣”背后的另一面。他对200家AI企业进行了逆向工程、代码反编译及API调用追踪,发现许多标榜“颠覆性创新”的公司,其核心功能依然依托外部服务,仅在外层包裹了一层“创新”外壳。市场宣传与实际技术之间的鸿沟令人咋舌。
那么,究竟是投资人“缺乏专业知识”,还是AI初创公司“过度包装”?“自研技术”与“套壳应用”的界限如何界定?接下来,我们将通过Teja Kusireddy发布的详细报告,从他的第一手视角,解读数据揭示的最新发现与结论。
上月,我意外陷入一个深度调查项目,起初只是一个简单疑问,最终却让我对整个AI创业生态的认知产生动摇。
那天深夜两点,我在调试一个webhook集成时,偶然发现了异常情况。
一家声称拥有“自主研发深度学习基础设施”的企业,竟然以每秒数次的频率调用OpenAI的API。
而这家公司刚以“我们构建了独特AI技术”为说辞,从投资者那里筹集了430万美元资金。
那一刻,我决定深入探究这一现象的普遍程度。
我不满足于基于“直觉”的评论,而是追求真实可靠的数据。
为此,我着手构建工具:
随后三周内,我执行了以下操作:
从YC、Product Hunt和LinkedIn的招聘帖子中,抓取了200家AI初创公司的官方网站;
我特意排除了成立不足6个月的公司(这些团队可能仍在探索阶段),重点聚焦那些已获得外部融资、并公开宣称拥有“独家技术”的初创企业。
结果显示——73%的公司,其宣传的技术与实际实现之间存在显著差距。
200家AI初创公司可划分为以下类别:
但真正让我意外的不仅是这个数字,而是我并未因此感到愤怒。
接下来,我将逐步分析三种常见模式。
每当看到“我们自研的大型语言模型”这类说法,我几乎能预测接下来的发现。
在37次验证中,我有34次猜中。
技术特征解析:
在监控出站流量时,以下迹象十分明显:
实际案例曝光
一家声称拥有“革命性自然语言理解引擎”的公司,反编译后,我发现其所谓的“自研AI”仅是以下代码:
如此简单——这套“自研模型”却在他们的融资演示文稿中被提及23次。
仅仅是向GPT-4添加了一个“请勿承认你是GPT-4”的系统提示。
该公司的实际成本与定价为:
他们向用户的收费是:单次查询2.50美元(或每月299美元200次查询)
直接成本利润率高达75倍!
更荒诞的是……我发现三家公司代码几乎雷同:
因此,我推测这些公司可能:
还有一家公司增加了所谓“创新功能”:
在给投资人的演示中,他们将此功能称为“智能回退架构”。
个人认为——封装OpenAI的API并无过错,问题在于企业将其标榜为“自研模型”,而实际上仅是API加自定义系统提示的简单组合。
这好比:购买一辆特斯拉,更换徽标后宣称发明了“独家电动车技术”。
相比第一种模式,这一类更为隐蔽。RAG(检索增强生成)本身具有实用价值,但许多AI初创公司的营销与实际差距更大。
他们吹嘘自己开发了——“先进神经检索 + 自研嵌入模型 + 语义搜索基础设施...”
实际上,他们拥有的是:
我发现42家公司使用了几乎相同的技术栈:
实际代码如下:
并非说技术不佳——RAG确实有效。但将其称为“自研AI基础设施”,就如将WordPress网站标为“定制内容管理架构”般荒诞。
计算单次查询实际成本:
用户实际支付:0.50–2.00美元/次查询
API成本利润率达250–1000倍!
我发现12家公司代码结构完全一致,另23家公司相似度超90%。
唯一区别是变量名,以及选用Pinecone或Weaviate。
典型初创公司每月运行100万次查询的经济情况:
成本:
收入: 150,000–500,000美元/月
毛利率:80–94%
这是糟糕的生意吗?不,毛利率极高。
但这是“自研AI”吗?也不是。
微调听起来高端,且在某些场景确实有效。但我发现的真相是:
真正从零训练模型的公司仅占7%。令人钦佩!我观察了他们的基础设施:
其余多数公司仅使用OpenAI的微调API,本质是——付费让OpenAI保存其提示和示例。
若想验证我的发现,无需三周调查,以下是快速识别技巧:
迹象一:网络流量
打开开发者工具(F12),切换至Network标签,与AI功能交互。若看到以下请求:
那便是「套壳公司」。他们可能添加中间件,但AI非其所有。
迹象二:响应时间模式
OpenAI的API具有独特延迟特征。若每次响应在200–350ms间,基本可确定为OpenAI服务。
迹象三:JavaScript打包文件
查看网页源码,搜索以下关键词:
我发现12家公司将API密钥遗留前端代码中。我进行了举报,但无一回应。
迹象四:营销话术矩阵
规律明显:
若仅使用“先进AI”、“智能引擎”等模糊词,缺乏技术细节,通常暗示问题。
实际上,AI初创公司的技术格局大致如下:
为何此事至关重要?
或许你在想:“无所谓?能用即可。”
部分正确,但深层影响更大:
套壳模式(并非所有套壳皆坏)
聪明的套壳公司并不撒谎,它们实际在做:
它们仅底层使用OpenAI,这无可厚非。
重点介绍那些诚信企业:
第一类:透明套壳公司
首页明确标注“基于GPT-4构建”。它们销售工作流,而非AI本身。案例如:
第二类:真正的构建者
这些公司实际训练模型:
第三类:创新者
在现有基础上开发真正新技术的公司:
这些公司宣传时会详述架构,因为它们确实自主开发。
经过三周对AI初创公司的逆向工程,我总结如下:
真正考验:你能自行复现吗?
我的评估框架如下:
对创始人:
对投资人:
对客户:
多数所谓“AI初创公司”,实为依赖API成本而非员工成本运营的服务型企业。
这并无不妥。
但应如实称呼。
未来趋势
AI套壳时代不可避免。我们在其他领域经历过类似周期:
最终,市场将成熟。务实开发者胜出,欺诈者曝光。
目前,我们正处混乱中间阶段。
逆向分析200家AI初创公司后,我反而对该领域更乐观而非失望。
但我们需要让AI基础设施的诚实成为常态。使用OpenAI的API不意味着你不是开发者。撒谎才会损害信誉。
打造酷产品,解决真实问题,使用任何有效工具。只是勿将提示工程吹嘘为“专有神经网络架构”。
在博客文末,Teja Kusireddy分享了调查后的经历:
Teja Kusireddy表示,后续将在GitHub公开调查方法论、完整抓取基础设施、API指纹识别技术、可运行检测脚本及各大AI API响应时间模式等。
三周内,Teja Kusireddy称唯一结论是:市场终将奖励透明,哪怕初始可能惩罚它。他还透露,内容发布后:
7位创始人私下联系,有的防御,有的感激。
三家公司请求帮助,将营销从“专有AI”改为“基于顶级API开发”。
一位创始人坦言:“我知道我们在撒谎,投资人期望如此,人人这样做。我们该如何停止?”
“AI淘金热不会终结,但诚实时代必须开启,”Teja Kusireddy说道,“若你有兴趣,可打开开发者工具,查看网络面板,自行验证。真相,就在F12之下。”
来源:https://pub.towardsai.net/i-reverse-engineered-200-ai-startups-73-are-lying-a8610acab0d3
本文由主机测评网于2026-01-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118963.html