中国算力方案:如何用有限资源做出无限可能?|甲子引力
创始人
2025-12-12 14:01:07

场景驱动的创新模式是中国算力产业的独特优势。

2025123日,「甲子光年」在北京万达文华酒店圆满举办轰然成势,万象归一”2025甲子引力年终盛典。

在算力产业专场圆桌对话中,甲子光年分析师王艺作为主持人,对话后摩智能联合创始人、战略副总裁项之初,海光信息智算产品负责人贺群,蓝耘科技CTO安江华,新华三集团企业技术部总经理朱哲,围绕《中国算力方案:如何用有限资源做出无限可能?》展开深入探讨。

在当下全球算力竞争从有没有转向够不够、好不好的深水区,中国算力产业面临先进制程受限、高端GPU供应收紧等独特外部约束。嘉宾们指出,制程瓶颈、软件生态和系统化工程成为年度高频词,产业正处于从堆叠算力高效协同的关键拐点

面对算力不足、互联受限、生态薄弱的三重困境,产业界分享了如何通过找准应用场景、构建差异化技术路线、以及推动端云协同来实现突破的策略。从存算一体芯片的商业化落地,到超节点万卡集群的系统工程,从Scale-upScale-out的技术抉择,到液冷技术的必然选择,嘉宾们用实战案例揭示了中国算力方案的创新路径。

对于未来的全球竞争格局,嘉宾们普遍认为,无论是芯片厂商、系统集成商还是算力运营方,唯有具备深刻的场景洞察力、扎实的工程化能力以及完整的产业链协同优势,才能在资源约束中创造无限可能,实现算力产业的持续突破。

以下为本场圆桌的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。

1.关键瓶颈:从制程到生态的多维挑战

王艺(主持人)当前中国算力面临结构性错配,包括芯片算力不足、互联带宽限制、软件栈不成熟、系统集成和调度能力欠缺等问题。各位认为中国算力卡脖子最先卡在哪里?请给出优先级判断。

项之初(后摩智能联合创始人、战略副总裁)如果用一句话简短说,还是编译器工具链的软件栈,我觉得是最卡的。端侧因为有很分散的场景,可能有各行各业的、各种各样的需求,其实对于软件的生态是有比较高的要求。大家都知道CUDA2006年发布的,经过了快20年的积累,每一个长尾的赛道,长尾的场景其实都有足够多的软件积累,这是每一个国产算力芯片公司都需要时间才能赶上的。

但我觉得软件栈的问题是可以慢慢克服的,关键是要有一个硬件上足够好的产品,跟国外的友商能形成差异化。你的硬件上比如说有几倍的优势,但你的软件生态不如它好,你还是有机会胜出的。

后摩智能联合创始人、战略副总裁项之初

贺群(海光信息智算产品负责人)从芯片厂商的角度看,制程的问题确实是逃不过去的,它不仅制约了芯片本身的算力密度,也制约了芯片的卡间互联带宽。所以,这两大方面的限制,确实可能需要整个AI上游产业在国产化有一些突破。

刚才项总提到的生态问题,从我们的角度看,其实是两个部分:一个是习惯,怎么样打破习惯?这是挺难的一个问题,因为大家都有惯性。另一个在系统化工程这块,一定不是单点能力强=整体强”而是通过有机的调度和协同,从上层应用到底层硬件的调优、演进形成闭环。

海光信息智算产品负责人贺群

安江华(蓝耘科技CTO我觉得刚才两位说得都很对,但最重要的是我们要找对场景。软件栈的问题我们可以找准一个场景,这个场景只要能够带来一定市场、一定收益,其实我们瞄准这个场景去做软件栈的适配就好了。制程问题也是一样,并不是所有的应用场景都需要非常强的算力,有些场景需要的算力不需要那么高。

蓝耘科技CTO安江华

朱哲(新华三集团企业技术部总经理)站在我们这个视角来看,最大的卡脖子点一定就是算力支撑。很多背后问题跟它就是一个关联关系,因为没有特别先进算力的卡,所以我们才需要大量的国产卡或者大量算力卡堆叠,才会对卡间互联技术产生要求。因为我们没有更高算力的卡,想增加算力就需要通过算力堆叠的方式产生更大的功耗,对液冷会造成更多要求。

新华三集团企业技术部总经理

2.超节点与集群:万卡级算力的系统工程

王艺(主持人)朱总,能否分享一下新华三在超节点方案上的实践?当集群从千卡扩展到万卡,甚至十万卡的时候,系统层面会遇到哪些非线性的挑战?

朱哲非线性的挑战还是很大的,千卡集群或者万卡集群的性能肯定不是等于单卡性能乘一千或者乘一万。在卡间互联阶段,通信带宽或者时延丢包其实都会极大影响性能。尤其像丢包这种事情,在训练的时候如果丢了一个包,整个要推倒重来。

之所以有超节点这个形态出现,如果大家都是8卡模组的集群,所有卡间的互联,尤其是O2O形式的情况下,所有的流量还要通过网卡转换,其实性能会降低,时延也会增加,而且寻址方式也不太方便。

新华三跟很多国产厂商对于超节点的认知有些不同,我们会认为超节点不仅仅是在训练场景,在推理场景也有它的用处。应用到推理场景,无论你做多大的超节点,它本质上都是要节省单个Token产生的成本,所以超节点本身不应该成为一个非常昂贵的方式。

王艺(主持人)贺总,海光DCU兼容CUDA等主流AI生态,有些友商走专属技术架构路线重新打造生态体系。海光为什么选择通用架构,这种软兼容策略是出于什么考量?

贺群大家比较熟知的有两大阵营,一个是以NVAMD为代表的GPGPU阵营,另一个是以TPU为代表的DSA类(领域专用芯片)阵营。

GPGPU是更偏向于综合型选手,计算类型的点线面都能覆盖。现在大家Transformer类的大模型用得最多,但我们也可以看到有Mamba base的,也有液态神经网络的,还有扩展到高性能计算,还有传统的机器学习类,这些都得跑得不错,这是GPGPU比较擅长的方面。

DSATransformer base类的算法上,可以实现硬件和软件深耦合,达到针对性调优目的,取得不错效果。但牺牲掉的就是计算类型的覆盖。

对于海光来讲,我们选定GPGPU的路线也是希望DCU可以成为数据中心人工智能通用的解决方案。后续AI不断高速发展,无论是新的模型、算法,还是其他场景的需求,海光DCU具备覆盖能力

对于兼容性,我们希望先依靠通用的硬件和兼容性很高的软件栈,让客户和合作伙伴集成起来、初期使用非常方便,尽量不改变大家原来的编程习惯。海光DCU现在也做到了从GithubDown下来一个代码可以直接跑,不需要复杂的适配过程

3.端云协同:算力分布的未来图景

王艺(主持人)项总,存算一体技术被视为突破内存墙的关键。从您的实战经验看,存算一体的技术产业化拐点到来了吗?哪些应用场景会最先爆发?

项之初我们现在已经出到第二代芯片了,今年7月份在上海WAIC上发布了我们第二代M50芯片,完全是冲着大规模商业化去的。我们有几个客户都是知名的头部,比如说AIPC的头部、知名语音的头部厂商,包括运营商的头部,做AI网关,都是完全以商业化量产的标准来要求我们的芯片。

我们的下游客户完全是基于市场原则的采购,所以我们还不得不去PK一些国外的传统架构厂商。从这几点归结为一句话,我们产品完全到了商业化量产阶段。

但您可能想问的是为什么还没爆发?因为端侧的大模型,包括端侧整个的应用还没有出现像GPT或者豆包这样的Killer APP。只有出现了Killer APP广泛地被大家使用,才会拉动整个产业链的爆发。

王艺(主持人)AI计算需求从云侧向端侧转移的情况下,这种趋势对数据中心基础设施和芯片设计带来什么颠覆性需求?端侧芯片要怎么在本地隐私和云端协同之间找到最优解?

项之初端侧必然要担负起一部分或者说大部分,至少50%以上的计算任务。如果说你给每一个用户都有足够的带宽和足够好的体验,尤其AI开始进入多模态时代,即使把海底所有光缆的总带宽加在一起,可能只能服务4000万的用户量。

端侧AI的第一个优点是隐私性。如果有了端侧,比如说在手机上,我可以把我的照片、视频、家里的情况,甚至以后有了AR眼镜,把所有实时的东西都传给本地的AI做运算。哪怕是涉及商业机密的工作文件,也能放心交给端侧AI做深度解析,从源头杜绝数据泄露风险,这正是真正安全可靠的智能助手诞生的基础。

4.互联与液冷:突破物理极限的关键

王艺(主持人)业界对超节点的两种技术路径,Scale-outScale-up存在争议。想请各位从系统架构和运维实践角度分析一下两者的优劣势,以及液冷技术是怎么成为超节点落地的关键一环?

朱哲Scale-up叫南向互联,Scale-out叫北向互联,实际上超节点在这个层面更强调的是Scale-upScale-out非常常见,主流有两个,一个就是英伟达迈络思的IB网络,还有一个就是国内现在做比较多的RoCE网络。

Scale-up更多强调的是在超节点内部,怎么样用更短的互联距离、用更大的互联带宽,甚至将来用光互联的方式,能够把超节点内部GPU之间的互联带宽做得更大、延迟做得更低。

关于液冷,我们现在看到液冷已经是高密度节点的一个必然选择。超节点本身就是高密度的,一个节点里有72张卡甚至更多,这种密度下如果用风冷是解决不了问题的。

安江华从性能角度来讲,Scale-up会更好一些,因为卡间通信会更高效。但是从灵活性角度,Scale-out会更合适,你可以灵活地扩容缩容。

液冷最直接的好处是节能,大概能节能30%左右,而且降噪表现很好。在超高密度下,液冷真的是不可或缺的。

贺群技术路线需要结合业务场景,Scale-up快但贵,需要考察投入产出。我们海光DCU产品在液冷兼容性方面已经好了充分准备。

5.工程化实践:从纸面到落地的鸿沟

王艺(主持人):能否分享一些纸面参数很好,部署时踩坑的案例?在工程化落地过程中有哪些实践经验?

项之初对于每一个创业公司都必经历多代产品迭代,被真实客户“虐”是最宝贵的财富,越挑剔的客户产品进步越快。我们第一代产品在实际部署中发现了很多纸面上看不到的问题,编译器工具链经过几次迭代才到今天可以快速适配。这些都需要在真实环境中不断调优。

朱哲所有国产卡都需要适配调优,我们与杭州萧山共同打造了芯模社区这一开放共赢的生态平台,通过汇聚芯片厂商、模型企业、ISV及各行业伙伴,联合打造研发、测试、验证的“试验田”。很多时候纸面参数和实际表现的差异,往往在于没有针对具体应用场景做深度优化。我们现在要求每一款芯片都要在我们的测试环境中跑满至少3个月,发现各种边界条件下的问题。

安江华我们在运营过程中发现,多场景测试非常重要。同样一张卡,在不同的模型、不同的批次大小、不同的序列长度下,性能表现可能差异很大。我们现在建立了全面的测试矩阵,帮助客户找到每张卡的最佳使用场合。

王艺(主持人):最后请各位展望一下,中国算力方案在全球竞争中可能具备哪些独特优势?

项之初我觉得是端侧芯片和生态创新。中国有完整的产业链优势,可以利用这个优势以应用反哺模型芯片迭代。我们在AIPC、智能会议、陪伴机器人等场景都有独特的应用创新,这些场景的大规模落地会驱动整个端侧算力生态的发展。

贺群中国的优势在于系统化工程能力。我们有集中力量办大事的体制优势,在政策支持下可以快速协调资源。另外在调度与工程能力上,我的大规模集群建设经验是独树一帜的。

安江华我觉得是AI应用领域的优势。中国在尖端科技民用普及方面一直很擅长,我们有庞大的市场和丰富的应用场景,这为算力技术提供了最好的试验田和迭代环境。

朱哲细分场景应用市场体量大,场景孵化反推模型与芯片创新。中国市场的多样性和规模优势,让我们能够在不同细分领域都找到足够大的市场来支撑技术迭代,这种场景驱动的创新模式是我们的独特优势。

(封面图及文中配图来源:2025甲子引力年终盛典)

相关内容

热门资讯

多家车企被精准“围猎” 如何斩... 来源:央视新闻客户端 国家网信办昨天(11日)通报了第二批汽车行业网络乱象典型案例,从严整治恶意诋毁...
如何成为专业有温度的服务大师?... “你心目中的大师是怎样的?” 参观一开始,奔驰服务技能大师赛的裁判长就问了所有参观者这样一个问题。 ...
三星为何能抢先发布MicroR... 【ZOL中关村在线原创技术解析】当顶奢电视三星Micro RGB横空出世,成为全球首款量产的Micr...