6月3日,面壁智能CEO李大海针对近期热议的斯坦福大学AI团队涉嫌抄袭其公司项目的事件作出回应。同日,公司联合创始人刘知远也在文章中强调,开源精神基于对协议的遵守、对其他贡献者的尊重及对前辈成就的认可,而斯坦福团队的行为显然违背了这些基本原则。
风波的源头是一款名为Llama3-V的多模态大模型,由斯坦福大学本科生团队开发。该团队声称,这款模型仅需500美元的训练成本,性能超越了GPT-4V、Gemini Ultra、Claude Opus等,迅速登上了“HuggingFace Trending”Top5。不过,随之而来的是大量指控,称Llama3-V抄袭了面壁智能的MiniCPM-Llama3-V 2.5模型。
面壁智能作为一家成立于2022年、有着清华大学背景的人工智能企业,专注于大模型研究,并在今年4月完成了数亿元融资。其自主研发的百亿参数预训练语言大模型CPM,MiniCPM为其端侧版本,因其高性能被昵称为“小钢炮”。5月20日,面壁智能公开发布了MiniCPM-Llama3-V 2.5,此模型支持超过30种语言,实现了端侧多模态性能的显著提升。
关于抄袭的指控集中在Llama3-V模型的结构、配置与MiniCPM-Llama3-V 2.5的高度相似上,几乎只是做了格式调整和变量重命名,甚至包括未公开的分词器等细节都一模一样。Llama3-V团队虽然承认使用了分词器,但对于如何提前获取到相关信息未作明确解释。
随着事件发酵,李大海和刘知远的回应中提到了一个关键证据:“清华简”的识别能力。面壁智能发现,Llama3-V与MiniCPM-Llama3-V 2.5在清华简的识别上出现了相同的错误,而这部分数据并未公开。高斯扰动测试进一步证实了两款模型的相似性。
Llama3-V团队最终在社交平台就学术不诚实行为向面壁智能致歉,并撤回了相关模型。斯坦福人工智能实验室主任Christopher David Manning对此抄袭事件表示谴责,并赞扬了MiniCPM模型。
此次事件也引发了对大模型开源领域内套壳、抄袭问题的广泛讨论。专家指出,开源虽鼓励代码共享,但必须遵守相应的协议,套壳与抄袭的界限则依据具体协议内容和行为判定。面壁智能高管比喻Llama3-V团队的行为相当于直接改名发布其模型为己有。至于面壁智能的后续行动,目前尚无更多信息公布。