华为盘古大模型与阿里云Qwen大模型的争议,再次掀起了关于模型“原研”与“套壳”的激烈讨论。
回溯三年前,当ChatGPT刚刚开启大模型航海时代时,套壳还停留于小作坊山寨ChatGPT的阶段。只需调用ChatGPT的API,再包装成“中文UI”,便可在微信群中按调用次数售卖会员。那时,套壳成为了许多人通往AI财富故事的第一张船票。
与此同时,在自主研发大模型的公司中,也不乏利用ChatGPT的案例。尽管这些企业拥有自研的模型架构,但在微调阶段或多或少使用了ChatGPT或GPT-4等对话模型生成的数据。这些合成语料不仅保证了数据的多样性,还是经过OpenAI对齐后的高质量数据。利用ChatGPT几乎是行业内公开的秘密。
从2023年开始,大模型赛道进入开源时代,借助开源框架进行模型训练,成为许多创业团队的选择。越来越多的团队公开自己的研究成果,推动技术的交流与迭代,套壳开发也变得更加普遍。随之而来的,是争议性的套壳事件逐渐增多,各种涉嫌套壳的事件频频登上热搜,随后又被相关方解释澄清。
国内大模型行业在“套”与“被套”中,不断发展。
回顾AI的进化史,今天我们看到各类大模型都源自同一个鼻祖——2017年Google Brain团队发布的Transformer神经网络架构。Transformer的原始架构和核心包括编码器(Encoder)与解码器(Decoder),其中编码器负责理解输入文本,解码器负责生成输出文本。
如今,在大型语言模型领域依然采用三大主流Transformer架构:Decoder-only(如GPT系列)、Encoder-Decoder(如T5)和Encoder-only(如BERT)。但最受关注和应用最广泛的,是以Decoder-only为核心的GPT式架构,并不断衍生出各种变体。
2022年11月,基于GPT3.5,OpenAI推出ChatGPT。发布后短时间内获取数千万用户,让LLM正式登上公众舞台,也将GPT架构推为主流AI架构。随着ChatGPT打响大模型时代第一枪,各大厂商纷纷涌入大模型研发赛道。由于ChatGPT无法直接接入国内用户,一些小作坊也看到了套壳的牟利前景。
2022年底开始,许多山寨ChatGPT在互联网上涌现。此时的套壳基本不涉及任何二次开发,很多开发者直接包装一下API就拿出来卖钱。
2022年底至2023年,国内涌现数百个ChatGPT镜像站,包括名噪一时的“ChatGPT在线”公众号。运营者拿到OpenAI API后,再在前端加价售卖。这种低劣的套壳手段很快就被监管部门发现。“ChatGPT在线”背后的上海熵云网络科技有限公司就因涉嫌仿冒ChatGPT被罚6万元,成为首例“ChatGPT套壳”行政处罚。
另一方面,在同期发布的其他模型中,时常出现一些“GPT味”的回复。这些模型背后的企业也遭受了套壳质疑。
2023年5月,曾有网友发现讯飞星火大模型在有些问答中会出现“我是由OpenAI开发的”等内容。由此一则关于“讯飞星火大模型被质疑‘套壳ChatGPT’”的消息传播开来。
这种情况并非个例。甚至2024年发布的DeepSeek V3也曾暴雷。有用户反映其在测试中出现异常,模型自称是OpenAI的ChatGPT。相关企业对这类情况的解释为:这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆”。
互联网公开信息中AI内容日渐增多造成的数据污染确实是可能造成这些“GPT味”对话的原因。但另一种可能是:模型研发团队在微调训练过程中主动使用了通过ChatGPT等OpenAI旗下模型构造的数据集——也就是所谓的“数据蒸馏”。
数据蒸馏是大模型训练中一种高效低成本的知识迁移方式。其逻辑就像是用一个强大的“老师模型”(如GPT-4)生成大量高质量问答数据,而后将这些数据喂给一个“学生模型”去学习。
事实上在GPT-3之后OpenAI就彻底转向了闭源。所以对于想要自研大模型的竞争对手而言无法在基础架构层面套壳OpenAI的产品。这些企业或多或少也在模型技术上有一定积累在架构层面纷纷推出自家的研究成果。但如果想要保证训练质量从更强的模型产品那里以借力的方式获取数据无疑是一种捷径。
虽然借力ChatGPT/GPT-4生成训练数据是业内公开的秘密但一直以来鲜有被披露的案例直到那起著名的“字节抄作业”事件。2023年12月外媒The Verge报道称字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型这种行为实际上已经违反了微软和OpenAI的使用条款。在此消息被披露后据传OpenAI暂停了字节跳动的账户。
字节跳动随后表示这一事件是技术团队在进行早期模型探索时部分工程师将GPT的API服务应用于实验性项目研究中。该模型仅为测试没有计划上线也从未对外使用。按照字节跳动的说法其对于OpenAI模型的使用是在使用条例发布之前。
对此来自国内某头部AI企业算法部门的叶知秋向直面AI(ID:faceaibangg)表示业内的普遍认知是数据蒸馏不应该被认为是套壳。“数据蒸馏只是一个手段通过一个能力足够强的模型产出数据对于垂直领域(的另一个模型)去做加训。”
加训(Continual Training)是一种常见的提升模型性能的方法。通过在新数据上继续训练模型可以使其更好地适应新的任务和领域。“如果利用数据蒸馏做加训算套壳那这个技术就不该被允许。”叶知秋解释道。
进入2023年许多厂商选择开源方式公布模型方案用以刺激开发者群体对模型/模型应用的迭代。随着Meta在2023年7月开源LLaMA 2标志着AI行业也进入开源时代。在这之后先后有十余款国产模型通过微调LLaMA 2完成上线。同时利用开源模型架构进行二次开发也成为了新的套壳争议点。
2023年7月百川智能CEO王小川回应了外界对旗下开源模型Baichuan-7B套壳LLaMA的质疑。他提到LLaMA 2技术报告里大概有9个技术创新点其中有6个在百川智能正在研发的模型里已经做到。“在跟LLaMA 2对比的时候我们在技术的思考里不是简单的抄袭借鉴我们是有自己的思考的。”
就在几个月后国内AI圈迎来了另一场更汹涌的套壳风波。2023年11月原阿里技术副总裁、深度学习框架Caffe发明者贾扬清在朋友圈中称某家套壳模型的做法是“把代码里面的名字从LLaMA改成了他们的名字然后换了几个变量名。”事后证实该信息直指零一万物旗下的Yi-34B模型开源时代的套壳争议被搬到台面上。
一时间关于零一万物是否违反了LLaMA的开源协议在各大技术社区引发了激烈的争论。随后Hugging Face工程师Arthur Zucker下场对这一事件发表了看法。他认为LLaMA的开源协议主要限制了模型权重而不是模型架构所以零一万物的Yi-34B并未违反开源协议。
事实上利用开源模型架构只是打造新模型的第一步零一万物在对Yi-34B训练过程的说明中也作出了解释:模型训练过程好比做菜架构只是决定了做菜的原材料和大致步骤……其投注了大部分精力在训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等方面的调整。
对于AI行业而言推动技术开源化的意义之一是停止“重复造轮子”。从零研发一款全新的模型架构并跑通预训练流程需要耗费大量成本头部企业开源可以减少资源浪费新入局的团队通过套壳得以快速投入到模型技术迭代和应用场景中。百度CEO李彦宏就曾表示:“重新做一个ChatGPT没有多大意义。基于语言大模型开发应用机会很大但没有必要再重新发明一遍轮子。”
“如果一个团队没有以原生模型的名义发表就不能叫套壳应该叫模型的再应用。”谈及套壳的定义叶知秋这样说道。在加入大厂项目之前叶知秋曾参与过一些创业公司的开源项目。他判断业内有实力造基础模型的企业只会越来越少加速利用开源技术是行业发展的必然。“毕竟核心技术上只有那几家公司有。”
“演化和加训严格来说和套壳是两码事。”叶知秋表示像LLaMA这样开源架构已经为业内熟知且熟用很多成果都是在这一架构的基础上演化而来的。但同时他也强调套壳合规与否在于冠名问题利用开源技术就需要在技术文档中做出明确说明。“如果你是在一个已经开源的模型上进行加训那就要在冠名和文档中体现这一点。”
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436849.html