我的位置: 上观号 > 上海科技 > 文章详情

李萌:从大模型效率革命的实践深化对颠覆性创新的认识

转自:上海科技 2025-07-15 18:23:53

李萌

第十四届全国政协委员、
教科卫体委员会委员、
中国可持续发展研究会第六届理事会理事长

大模型是一项颠覆性技术,正在成为一项通用技术。大模型的效率革命是一项颠覆性创新,已经引发了业界的全局性响应。在考察这项颠覆性创新的过程中,人们也深化了对于颠覆性创新一些重要问题的认识。美国学者威廉·泰勒说,颠覆性创新是引入新技术、新产品或者服务推动变革,并在市场竞争中获取优势。当前,大模型引领的智能化进程已经开启,在全社会范围展现出巨大的创新空间,成为科技和产业领域催生颠覆性创新的最大牵引力。

所谓“颠覆”,从微观个体上可以理解为一种替代,从宏观整体上可以理解为一种范式转换。前者产生颠覆性技术,颠覆游戏规则,重构技术体系,比如Windows系统用窗口、图标替代MS-DOS命令行,光纤代替了铜芯,电动车替代燃油车,基因编辑替代辐射寻求种子突变优势。而范式转换则重构了科技、产业和社会的底层逻辑,引发产业基础系统性变革和多领域大范围乃至社会的革命。“范式转换”由“替代”积累叠加而成。托马斯·库恩在《科学革命的结构》中提出,革命实质是“范式转换”。工业革命以来,科技发展一步一步实现对人类部分能力的替代,推动生产力大幅提升,造福于人类。蒸汽机革命实质上是对人的体力替代;电力革命实质上是对人的体力替代在远距离上的延伸;计算机革命所带来的计算和存储能力,是对人脑力的部分替代,比如海量计算和记忆;网络革命更大范围替代了全社会的物理连接方式,全面提升联通效率,构建了虚拟世界和现实世界双重社会格局。

过去十年,一定程度上模仿了人类思维方式的生成式人工智能对完成特定任务的解析式判别式人工智能进行了替代。大模型的快慢思考系统,以及智能体的感知、推理、规划、决策、行动能力越来越强,对人类大脑进行越来越多的替代,硅基生命开始走入现实,这些对社会产生的影响有待长期深入观察。随着大模型、智能体日新月异的迭代进化,全世界的开发者都在努力提升涌现和泛化能力,寻求更聪明、更强大、更低耗的大模型。新的大模型不断超越过去,正在对智能涌现的理论、架构、技术、模型、方法、应用以及商业模式进行创新乃至颠覆。

一、大模型正在进行一场“效率革命”

Transformer问世后,大模型一直演绎着“大力出奇迹、压缩即智能”的逻辑,模型能力与规模成正相关,模型参数越来越大、数据越来越海量、算力消耗越来越多,虽然带来的智能涌现越来越强,但也太过消耗GPU。直到DeepSeek问世,其用相当于OpenAI十分之一的算力、二十分之一的费用训练出性能接近等效的模型,掀起了一场效率革命,“能效比”在业界开始发挥作用。

DeepSeek采用了结合冷启动的强化学习方法,并通过新的架构、训练策略、极致的软硬协同优化来大幅提升模型性能:一是DSMoE混合专家模型,通过隔离部分专家作为共享专家,选择性地激活专家参数的子集,在训练时通过稀疏机制降低计算需求。二是多头潜在注意力机制(MLA),通过压缩键值(KV)缓存显著降低了内存消耗,提高推理效率。三是软硬件结合的底层优化(PTX),在CUDA系统与硬件之间的边缘直接调取算力和数据。通过使用比CUDA更底层的汇编语言PTX来优化计算和通信的并行,显著提升计算效率。四是混合精度训练框架(FP8),这是一种更低精度的训练格式,在节省计算资源的同时,保持相当的精度,保证了模型质量。五是多词元预测(MTP),同时预测多个Token,并行处理。六是高效的双管训练框架(DualPipe),实现近乎零开销的跨节点通信。

DeepSeek还有一个特别值得称道的地方是模型开源,其降低了技术门槛,推动大模型在各行各业本地化部署,各类平台应用争相接入,普通百姓能够体验大模型,面向众多中小企业和个体用户端的应用开始兴起,迅速形成巨量应用群体。图灵奖得主杨立昆说DeepSeek最大的价值是开源超越了闭源。“突出应用导向”如果没有开源,就谈不上大规模运用。2025年6月,全球最大的AI开源社区Hugging Face发布最新的AI开源贡献榜,阿里通义千问与DeepSeek入选全球开源贡献榜前十。

这些创新每一项都独具匠心,但单项努力仍难以产生颠覆性效果,而通过整体协同、工程优化就产生了被称为“效率革命”的颠覆性。

开发思路的转变带动国内外开发者在策略和路径上进行各具特点的探索。当前中国有一批大模型沿着这个思路奋力掘进、俨然成势:华为的算力、模型、软硬件和开源齐头并进;Minimax、智谱、月之暗面、面壁这些初创企业在开源模型上你追我赶;阿里、字节跳动、腾讯、京东、科大讯飞等互联网大厂都推出高性能开源模型。国际上也有一些公司在“能效比”上相当优秀,比如OpenAI推出的O3-pro,号称史上最强推理模型,价格比O1-pro便宜87%。它们共同推动了效率革命在全行业扩展,带来AI价值体系重构,大模型高性能、低成本的创新思路引领了投资行为的调整,甚至一度引起国际金融市场波动。

总之,DeepSeek大幅度降低了大模型经济门槛和技术门槛,使行业竞争逻辑发生了转变,推动了高端大模型的技术平权——从“寡头玩物”向“普惠工具”转变,这个现象在技术成长中意义重大。

二、大模型效率革命下对颠覆性创新的深入思考

(一)工程创新是成就颠覆性创新的重要方式

DeepSeeK通过引入新的架构、训练策略,极致的软硬协同优化以及开源来提升模型性能,降低训练成本,带有“工程创造奇迹”的色彩,展示了工程创新对于推动大模型持续发展的巨大潜力。在推动大模型应用上也是如此,在算力硬件上实现性能大幅度提升更得益于此。比如华为用叠加和集群的方法,实现在单片性能落后的情况下计算结果与全球最先进水平相当。最近华为任总接受采访时介绍,华为通过“数学补物理”“非摩尔补摩尔”“群计算补单芯片”等措施,解决了算力的大部分短板制约问题。这中间工程技术创新发挥了重要作用。正如《华尔街日报》总结的那样,中国的算力卡虽然单卡性能不及英伟达,但通过工程化进行规模和系统整合提升整体能力,在部分关键指标上实现了赶超。这对英伟达来说可能没有颠覆性效果,但对于中国突破算力现状来说确实有颠覆性效果。这与现在流行的通过3D堆叠封装等先进封装技术来解决芯片问题有异曲同工之妙。下一阶段,人工智能的发展更加考验软硬件协同的工程优化开发方式。不仅在大模型等离身智能领域,在人形机器人、高级别自动驾驶、低空自主智能载运工具等具身智能体领域,工程创新也将越发显示其重要性。过去西方学者曾经提问、当前仍值得问:为什么蒸汽机革命没有发生在伦敦,而是发生在伯明翰、格拉斯哥、曼城?为什么推动者不是学术机构而是“月光社”?今天仍然存在对工程措施在颠覆性创新中发挥的作用认识不够的问题。

(二)基础理论创新和工程技术突破交替引领颠覆性创新

基础理论创新和工程技术突破交替引领颠覆性创新,也就是说在“从0到1”和“从1到100”的过程中都是可以产生颠覆性创新的。基础理论的重要性是不言而喻的,也是全社会的共识。爱因斯坦说过,理论揭示现在,工程创造未来。科学家和工程师在发现现实世界与创造未来世界中各有优势。从摩尔定律(芯片)到尺度定律(大模型)的技术革命通道轨迹表明,重大突破往往呈现基础理论创新与工程技术突破的交替式上升,当理论遇到物理极限后工程创新能够打开新空间。比如半导体革命中摩尔定律与FinFET晶体管结构,胡正明先生发明的鳍式场效应晶体管(FinFET三维鳍状垂直结构),通过3D立体结构突破物理极限。这是一项革命性的工程技术的突破,这个发明初始目的是解决纳米尺度下晶体管根本物理失效问题(短道沟效应和漏电流),也为后续解决纳米尺度下热管理和信号完整性遇到的挑战提供了物理基础,为延续摩尔定律作出了重要贡献。人工智能发展中,尺度定律(Scaling Law)与工程优化之间不断互动。目前尺度定律在预训练中出现了效率递减,俗称“撞墙”了。但通过模型架构、训练方法、极致的软硬件协同优化等工程创新,在强化推理上延续尺度定律,实现了模型效率的显著提升。这种交替式引领也是近80年来科研范式演进的结果:从万尼瓦尔·布什“基础研究—应用研究—试验发展”的“线性模式”,到斯托克斯的由应用引发基础研究的“巴斯德象限模式”,再到文卡特希的“发明—发现循环模式”,这些不同阶段的科研范式演进理论在中国都有很好的实践案例,认识到这一点对于构建中国特色的科研组织结构和研发模式意义重大。尽管近年来频遭制裁打压,中国依然屹立世界,除了我国有一大批科学家在努力拼搏外,各行各业更有大量高水平工程技术人员和企业家在突破重围。

(三)复合创新替代单一路径成为孕育颠覆性创新的主流方式

单一的颠覆性技术未必能够带来颠覆性效果,大模型效率革命是复合因素推动的,架构、策略、软硬件协同作用,模型、算力、数据三者贯通发力,行业对尺度定律的理解从单一维度向多阶段复合性维度转变。宇树机器人的成功远不止是使用电机直驱技术替代波士顿动力的液压传动,还包括大小脑与灵巧肢体、灵巧手在本体上实现耦合等。人工智能本身是一个综合交叉的领域,在具身智能体领域更是如此,大脑、小脑模型和本体制造必须在物理空间上实现协同。目前,自动驾驶汽车的基础大模型日趋成熟,汽车本体制造原本就十分成熟,现在,随着上百年来燃油车发展进程中难度极大的发动机、变速箱、底盘等技术被完全颠覆,以及内部通信技术的不断进步,技术合体后的自动驾驶将迎来“iPhone时刻”,开启快速商业化进程。实践显示,复合创新替代单一路径是一个普遍现象,颠覆性创新越来越在交叉融合的复合创新中产生,考察颠覆性创新如何形成已不再用单一标准、单一路径。

(四)能效比最优成为衡量颠覆性创新的新维度

能效比最优成为衡量颠覆性创新的新维度。之前的研究从技术维度、市场维度、效果感受维度探索过“度量”的方法(中国科学技术信息研究所潘云涛、赵志耘等人做过相关研究)。DeepSeek大模型走出了一条低算力、低成本而与世界最优秀模型性能等效的发展新路径,引发了国内外震动,“能效比”的地位显著上升了。Transformer传统的“全注意力机制”越来越面临计算开销压力,引入不同的注意力机制来降低消耗成为热门,先是多头潜在注意力机制,接着原生稀疏注意力机制又被提出。最近Minimax-M1用了闪电注意力机制,这是一种基于线性注意力的机制,生成长度为100K时,消耗仅为R1的1/4。面壁智能MiniCPM用了原生稀疏的侧端模型。调节稀疏度也是降成本的一种核心策略甚至可以说是一种“神技”,现在的模型有用稠密机制的,也有用稀疏机制的,稀疏中又有不同的机制形式,根据经验稀疏化可使训练成本降低40%~60%,在推理阶段有的边缘设备成本下降80%。还有利用计算精度调节算力消耗的,有用高精度计算的如FP18、FP32,也有用低精度计算的如FP8。这些各有优势也各有短板。从统计学上看,稠密机制和高精度计算更能提升智能涌现效果,但成本居高;而使用稀疏机制和低精度计算的模型幻觉率相对高一些。过去“大力出奇迹”讲的是“规模—涌现—智能”,现在行业竞争逻辑发生了转变,效率在决定是否具有颠覆性上起重要作用,没有高能效比就没有颠覆性创新。同时,对能效比的追求往往会倒逼探索“能力等效”的途径和措施。未来大模型技术的发展将长期处于尺度定律和效率革命的动态平衡中,降成本与增智能的关系需要始终把握好。这种现象并不局限在大模型一个领域。最近看到一篇《自然》杂志对明尼苏达大学罗素·芬克等三位教授2023年的一项研究介绍,这项研究发现近70年科研论文和专利的颠覆性减弱,研发收益递减(基于1945年到2010年间发表的论文和专利),再进一步分析发现其实具有颠覆性的论文和专利数量大体保持相应规模,并没有减少,而是因为论文和专利总数扩大,占比也就下降了。这是效率越来越重要的一个例证。

(五)开源开放是形成颠覆性创新生态规模必不可少的方式

DeepSeek举行了为期五天的“开源周”,包括开源代码权重、通信库,以及开放技术细节等。近期国内外一批企业争先恐后推出自己的开源模型,在业界掀起了一股开源潮流。开源生态加速技术扩散和技术路径分化,目前,闭源路线继续追求超大规模参数和专用硬件集群,而开源路线通过创新算法降低对算力的依赖,形成“轻量化模型+社区协作”的生态,促进其在各行各业本地化部署。

未来的竞争是生态对生态的竞争,开源对生态规模和价值形成具有重大影响。开源决定规模,规模产生涌现,涌现成就“颠覆”。信息时代、网络时代、智能时代分别对应三个定律即摩尔定律、梅特卡夫定律、尺度定律,三个定律都与产业生态规模密切相关,揭示了不同时代的典型规模经济规律。摩尔定律虽不直接描述生态规模,但却是推动集成电路生态规模爆炸式增长的核心技术驱动力,是生态规模扩张的重要引擎。网络时代的梅特卡夫定律,提出生态价值等于网络内节点的平方。最近清华大学张亚勤院士对智能化时代的生态规模演化也做过描述,从PC时代到网络时代再到智能时代,生态规模呈现1—10—100的倍数变化关系。中国模型开源的效应使人们认识到开源是一种值得重视的范式,将有更多的开发者、使用者在具体的行业场景中接入开源模型进行赋能。一些开源社区迅速崛起,这里将成为收获颠覆性创新成果的肥沃土壤。中国开源模型的成就不是偶然的,中国发展新一代人工智能伊始就倡导开源开放,这是国家第一个新一代人工智能发展规划提出的四条基本原则(科技引领、系统布局、市场主导、开源开放)之一。2025年4月25日中共中央政治局就加强人工智能发展和监管进行集体学习时,再次强调了开放的原则,指出“人工智能可以是造福人类的全球公共产品”,要求加强国际合作,为中国人工智能发展指明了方向。

(六)颠覆性创新与颠覆性危害问题要同步观察和考量

硅基生命闯入地球需要寻求正确打开方式。人工智能是既具有技术属性又具有社会属性的技术领域,它的社会属性要比一般技术领域更强。以往科技革命和产业变革大都建立在可解释的科学原理和透明技术路线基础上,而当今大模型的智能涌现具有不完全可解释性,由此带来一定的不确定性和不可控性。人工智能发展水平越高,越接近通用人工智能,越需要与人类紧密互动,越需要保持科技伦理、社会规范上的敏捷治理,形成技术创造与社会发展之间良性互动格局,否则带来的危害也可能是颠覆性的。如随着自动驾驶、人形机器人等快速发展,需要探索建立社会就业底线看守机制,包括建立政府预警机制以及政府、企业、就业者的社会协商机制来保障社会就业稳定。由于颠覆性创新爆发有一定的突然性,其影响也存在着不确定性,只有技术能力进步与治理能力进步始终伴随、保持均衡,才能避免不出现“治理意外”和颠覆性危害。

相比较而言,人们对颠覆性技术、颠覆性创新的探索比较重视,而对治理需求的认识存在两极分化现象,要么轻视而置之不顾,要么自己吓唬自己,比如“人工智能将毁灭人类”之类的预警。但随着大模型推理能力增强,治理问题就显得越来越重要。有开发者发现大模型越聪明越不听话,更难完全遵守用户给定的指令要求,模型的大小与其遵守指令的能力不呈正相关,有时可能会出现负相关,这种现象值得警惕。现在国际上忽视治理的现象抬头,美国有重量级人物提出停止监管十年,欧洲也改变了过去监管从严的思路。中国一贯重视治理问题,真发展也真治理。我国多年前开展了一项有特色的工作,即人工智能社会治理实验,这是人工智能社会治理的一项基础性工作,由清华大学主持,已纳入国家规划实施工作。该实验在各地布点,从记录人们对人工智能的期待、参与、收获、担忧、受损等点滴开始,观察智能化对社会变迁潜移默化的影响,虽然现在还没有惊人的收获,相信若干年后人们对这件事也会有颠覆性的感觉。

三、在实践层面如何迎接颠覆性创新

(一)研发颠覆性创新大模型,打造感知、判别、评测、筛选新工具

如何度量“颠覆性”?学术界一直没有找到有效办法。罗素·芬克提出的“引用度量”是一个新探索,但未有太多响应。匹兹堡大学吴令飞认为,目前学术界还没有就应该采用哪些指标来度量颠覆性达成共识。在这样的情况下应当请大模型登场。大模型是解决复杂问题的高手,系统越复杂、影响因素越多、相互关系模糊,越需要大模型来揭示规律和内在关系。现实存在的能效比维度以及技术维度、市场维度、影响效果维度等多维度相交织的复杂关系,可以通过大模型来揭示规律。

(二)通过场景创新在“最后一公里”跨越“颠覆”障碍

各种细分的新技术、单一的创新要想产生“颠覆性”效果,最后必须在场景创新、“杀手级应用”中实现。互联网从出生发展到“互联网+”经历了几十年,人工智能经过70年才走进人工智能+,其中重要的经验是场景创新的带动。互联网在出现早期并没有找到合适的应用场景,以至于当时出现了一个词叫“内容产业”。20多年前在展厅里经常可以看到一个简易机器模拟网购的场景,而今天各种技术融合已经发展出网购、外卖、快递、共享单车等新流通产业,成就了京东、淘宝、美团、拼多多等企业。人工智能发展70年来路径众多、流派众多,直到最近几年才走进“人工智能+”场景。有些曾经被视为划时代的创新如大数据、元宇宙、Libra等目前尚未迎来属于自己的时代,也是因为没有“杀手级应用”,当然它们发展出来的技术体系是宝贵的,在人工智能时代将发挥非常重要的作用。多年前出现的“iPhone时刻”,主要是便捷驱动;近年出现的“ChatGPT时刻”是性能驱动,能力优先、高不可攀;“DeepSeek时刻”是能效比驱动,成本低但性能等效。这些“时刻”都是在应用中实现了跨越,最终由新技术演变成为颠覆性创新、产生颠覆性影响。

(三)不宜过度神化“颠覆性”

所谓“颠覆性”是能引起格局变化的创新,如何区别具有颠覆性创新潜力的成果和一般创新潜力的成果,大家各有所见,实践中也不容易把界限划清楚。有人说工业革命以来有25项通用技术,如蒸汽机、电力、计算机、互联网、人工智能等,这些当然算得上“颠覆性”水平,但无论是微观上技术、能力和产品的替代,还是宏观上范式转换即技术革命、产业革命那样的颠覆性创新、颠覆性技术,毕竟都很稀少。如果我们只关注那些可能几十年、上百年才出的成果,其研究的社会价值会打折扣。当然也不能泛化颠覆性,把一般的技术进步当成颠覆性创新。地方有些机构每年都组织颠覆性技术大赛,虽然选出来的成果很难说都有“颠覆性”,但已经成为催生颠覆性技术、颠覆性创新的重要途径。

(四)具备交叉融合能力的人才将发挥更大作用

学科交叉和知识融合是当前大力倡导的,也是教育、科技、人才“一体化”部署的一个重要方向。从事后总结经验看,主持和参与颠覆性创新的领军人才往往是多种能力融合于一身,因此人才的内涵要从知识交叉向能力交叉进化。复合创新、“组合—颠覆”最终都将落脚到什么样的人才挑大梁上。当前要鼓励更多年轻的研究人员和工程技术人员、企业家基于问题导向挑战理论、技术、工程难题,在实践中锻炼积累交叉能力。挑战难题的人多了往往会有出其不意的科学发现和技术突破。

本文刊载于《科技中国》杂志 2025年第6期 特别关注栏目,系第十四届全国政协委员、教科卫体委员会委员、中国可持续发展研究会第六届理事会理事长李萌在6月26日“浦江创新论坛——科学学上海论坛·2025 科技创新智库国际研讨会”开幕式上所作的报告。文章观点不代表主办机构立场。


来源:三思派

编辑:拾

↓分享

↓点赞

↓在看