作者|庄洲,编辑|Evan
“
大模型正在上演Linux的故事
”
世间建筑可以分为两种,一种是集市,天天开放在那里,从无到有,从小到大;一种是教堂,几代人呕心沥血,历尽几十年方能完工。Eric Raymond在《大教堂与集市》中如是写道。
而Linux的故事,更像是用集市的方式,建造一座大教堂。如今,在生成式人工智能领域,越来越多的开源模型正在为这样的“建造模式”贡献新的案例。
阿里云,是开源模型的坚定追逐者。目前,通义千问Qwen衍生模型数量已突破10万,超越美国Llama模型,通义成为全球第一AI开源模型。
4月29日凌晨,阿里发布新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的三分之一,为235B,成本大幅下降。
据悉,千问3是国内首个“混合推理模型”,“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,大大节省算力消耗。
2023年至今,阿里通义团队已经开源了200多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,开源囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态,覆盖从小到大全尺寸参数,满足不同的终端需求。
千问3的总参数量为235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。
千问3的部署成本还大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一。
阿里的开源模型发布,对行业意味着什么?开源模型的能力如何?未来的大模型竞争将会走向何方?
#01
开源大模型的能力正在后来居上
开源大模型的能力正在赶上闭源模型。
这是笔者在询问了多位AI创业者、大厂大模型开发者及投资人后的共识。
尽管,他们也同意,如今还是闭源模型处于领先地位,但开源模型和闭源模型之间的差距正在逐步缩小,而这样的速度,令业界始料未及。
“闭源模型先做到了90分,但如今,开源模型也能够做到90分的水平。”一位大模型开发人员表示。Scaling Law总有瓶颈,这个瓶颈所体现的便是模型越大,能力提升、付出的成本则是成倍增加,因此给了开源模型追赶的时间。
是开源模型究竟开放了什么?其与开源软件有什么区别?又与闭源模型的差异体现在哪里?
开源软件通常是公开源代码的全貌,允许开发者查看、修改,后续开发者可以很容易根据代码复现相应的功能实现。但开源模型一般只开源参数,至于其中用了什么数据、如何微调、如何对齐,却难以知晓。闭源模型则是直接提供一整套方案。可以理解为,开源模型是基于原有的材料,需要厨师自备工具、菜单、研究做法,但究竟能不能做出一道好菜,全靠厨师功力。闭源模型则是预制菜,加热即用。
但开源模型的好处在于,能够让更多开发者参与到模型的开发中,帮助模型提升性能、完善生态,并且灵活性强。这能够帮助模型公司省去很多人力成本和时间成本。对于使用开源模型的一方,也是一种节省成本的方式。
不过,开源模型的成本优势在前期,举个例子,据计算,闭源模型GPT-4每百万个代币输入的成本约为10美元,每百万个代币输出的成本约为30美元,而开源模型Llama-3-70-B每百万个代币输入的成本约为 60 美分,每百万个代币输出的成本约为 70 美分,这使其成本大约便宜 10 倍,而性能差异却很小。但如果涉及到后续的部署,则需要极强的技术实力和投入。
不过,阿里此次发布的千问3,也正在逐步解决成本投入的问题,以阿里新发布的千问3为例,从部署成本看,千问3是满血版R1的25%~35%,模型部署成本大降六/七成。旗舰版千问3模型的总参数235B激活22B,大致需要4张H20或同等性能的GPU。对比来看,满血版DeepSeek-R1总参数671B激活37B,1台8卡H20虽然可跑,但较吃紧(100w左右),一般推荐16卡H20,总价约200万左右。
模型推理上看,千问3独特的混合推理模型,开发者可自行设置“思考预算”,在满足性能需求的同时实现更精细化的思考控制,自然也会节省整体推理成本。可以参考的是,同类型的Gemini-2.5-Flash在定价上的推理和非推理模式的价格相差约6倍,用户使用非推理模式时相当于可节省600%的算力成本。
一位大厂从事大模型开发人员告诉硅兔君,开源模型更适合于有很强技术实力,但没有足够预算的团队,例如学术机构。而闭源模型则适合人少钱多的公司。不过,随着开源模型能力的提升,有41%的受访企业计划增加对开源模型的使用,而41%的企业认为如果开源模型和闭源模型性能相当,会转向开源模型。在这项调查中,仅有18%的企业不打算增加对开源LLM的使用。
A16z创始人马克·安德里森就表示,开源,让大学重新回到竞争中,因为,如果研究者的担心是,第一,大学没有足够的资金来参与AI领域的竞争并保持相关性;其次,所有大学加在一起也没有足够的资金来参与竞争,因为没有人能够跟上这些大型公司的筹资能力。而当开源模型越来越多且能力上来之后,就意味着大学可以使用开源模型进行研究。对没有足够资金的小公司而言,这个逻辑同样成立。
硅兔君制图
#02
大模型的东方启示
DeepSeek的横空出世,让诸多人发现了中国公司开源模型的能力。
“Deep Seek代表的是轻量化、低成本的AI产品。”一位中美AI投资人表示,举个例子,混合专家模型(MoE)的调整需要极高的工艺,过去的主流模型使用MoE的并不多,是因为难,但是“小孩不信邪”,却把这件事做成了。
但开源模型最重要的是生态,也就是说到底有多少人用。毕竟,要切换不同的模型,对用户而言是极高的成本。不过,当DeepSeek横空出世之后,在硅谷一些用Meta的大模型的用户也切换到了DeepSeek,“后来者一定要比先发者有足够的优势。”一位大模型研发人员表示,这样才会吸引用户放弃前期投入的成本,切换到新的开源模型上来。
硅兔君整理了目前全球知名模型的开源和闭源情况发现,除了亚马逊,微软、谷歌、Meta、OpenAI都有开源模型的布局,一些公司选择纯开源路线、一些选择开源和闭源并行,在中国,阿里是在开源道路上走得最坚定的大厂。早在DeepSeek发布R1前,阿里就在开源模型上押注和布局。
根据李飞飞的《斯坦福人工智能报告2025》,2024年中,阿里发布的著名AI大模型数量为6个,位于全球第三,谷歌和Open AI并列第一,为7个。而在报告中所提及的2024年重要大模型排名,阿里的AI贡献度位列全球第三。
来源:《斯坦福人工智能报告2025》
而29日发布的千问3,作为通义千问系列最新一代大语言模型,提供了一系列稠密(Dense)和混合专家(MoE)模型。在推理、指令跟随、智能体能力和多语言支持方面取得了突破性的进展,具有以下特性:
1) 独特的混合推理:支持在思考模式 (用于复杂逻辑推理、数学和编码)和 非思考模式 (用于高效通用对话)之间无缝切换,确保在各种场景下的最佳性能。
2) 显著增强的推理能力 :在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ(在思考模式下)和Qwen2.5-Instruct 指令模型(在非思考模式下)。
3) 更好的人类偏好对齐 :在创意写作、角色扮演、多轮对话和指令跟随方面表现出色,提供更自然、更吸引人和更具沉浸感的对话体验。
4) 智能体能力突出 :可以在思考和非思考模式下精确集成外部工具,在复杂的基于代理的任务中在开源模型中表现领先。
5) 强大的多语言能力:支持119 种语言和方言,具备强大的多语言指令跟随和翻译能力。
其中所提到的“混合推理”,相当于把顶尖的推理模型和非推理模型集成到同一个模型里去,需要极其精细、创新的设计及训练。目前,热门模型中只有千问3、Claude3.7以及Gemini 2.5 Flash可以做到。
具体而言,在“推理模式”下,模型会执行更多中间步骤,如分解问题、逐步推导、验证答案等,给出更深思熟虑的答案;而在“非推理模式”下,模型会直接生成答案。同一个模型,可以完成“快思考”和“慢思考”,这类似于人类在回答简单问题时,凭经验或直觉快速作答,面对复杂难题时再深思熟虑,仔细思考给出答案。千问3还可API设置“思考预算”(即预期最大thinking tokens数量),进行不同程度的思考,让模型在性能和成本间取得更好的平衡,以满足开发者和机构的多样需求。
Qwen3的性能情况
对中国而言,开源模型的做法也比闭源模型能够吸引更多客户,因为如果是闭源的模型,只能更多集中在国内市场,但开源则能够让更多国外公司也进行使用,举个例子:Perplexity是一家美国公司,但用户可以在Perplexity上使用DeepSeek R1,并完全托管在美国,使用美国的数据中心。
#03
大模型的下半场
2023年3月,在旧金山的探索馆一场开源AI盛会上,羊驼漫步在会场上,致敬了Meta的开源大语言模型“LLaMA”。
2023年至今,一年多时间里,生成式AI正在不断发生变化。公众的关注点已从基础模型变为AI原生的应用。在YC W25的Demo Day中,80%的项目都是AI应用。
“开源模型将会促进更多Agent的落地。”多位业界人士向硅兔君表达了这个观点。一方面是开源将会降低使用成本及门槛。
例如千问3 有很强的工具调用能力,在伯克利函数调用BFCL评测榜中,千问3创下70.76的新高,将大幅降低Agent调用工具的门槛。同时,可结合 Qwen-Agent 开源框架来充分实现Qwen3 的智能体能力。Qwen-Agent 是一个基于 Qwen 的指令跟踪、工具使用、规划和内存功能开发 LLM 应用程序的框架,框架内部封装了工具调用模板和工具调用解析器,还附带浏览器助手、代码解释器和自定义助手等示例应用程序,大大降低了编码复杂性。千问3原生支持MCP协议,开发者要定义可用工具,可基于 MCP 配置文件,使用 Qwen-Agent 的集成工具或自行集成其他工具,快速开发一个带有设定、知识库RAG和工具使用能力的智能体。
不仅如此,阿里的千问3能够支持不同尺寸模型,千问3对手机、智能眼镜、智能驾驶、人形机器人等智能设备和场景的部署更为友好,所有企业都可免费下载和商用千问3系列模型,这也将大大加速AI大模型在终端上的应用落地。
另外,有从业者指出,闭源模型在To B端并没有很好解决信任问题,很多大企业其实并不愿意将自己的业务接入第三方大模型的API,因为这背后是核心数据是否会成为第三方大模型训练的一部分,这也是开源模型的机会。
有一个说法是,开源作为早期产品,在没有经过beta测试之前的市场推广策略,当不知道明天会是什么样的时候,先开源出来,吸引开发者。当有人用起来的时候,就有了最佳实践,紧接着就建立起了自己的生态。
不过,由于开源模型的商业链条较长,不如闭源模型来得快和清晰,因此业界人士表示,开源模型更多适合家里有钱有资源的“富二代”的游戏。以Meta来说,Meta做开源模型,更多是搭建生态,为Meta其他业务板块提供支持。阿里做开源的逻辑,则更多是为其云服务。阿里有很强的云设施服务,可以在此基础上训练大模型,另外也可以将大模型部署在自己的云服务商,甚至可以根据用户部署定制专属大模型,用这样的方式走通商业逻辑。
“我的模式是,让大公司、小公司和开源相互竞争。这就是计算机行业发生的事情。”马克·安德里森曾表示。而在大模型逐渐变成如水、电、煤一样的标准化产品,开源可能更适合未来的方向。