AI大模型如何像人类社会一样“开会讨论”?
创始人
2026-01-27 14:22:28

当你在准备一份重要报告时,脑海里可能会出现这样的场景:一个声音说"先分析数据吧",另一个声音反驳"等等,我们得先理清框架",还有一个声音跳出来说"你们考虑过用户需求吗?"这种内心的"多声部"对话,竟然也在最先进的AI推理模型中发生着。这项由Google、芝加哥大学和圣菲研究所联合完成的研究发表于2026年1月,该研究揭示了一个惊人的发现:像DeepSeek-R1这样的推理模型之所以能解决复杂问题,并不仅仅因为它们"想得更久",而是因为它们学会了在内部模拟一个"思想社会",让不同的认知视角进行讨论、争论和协调。

想起那句老话:"三个臭皮匠,胜过诸葛亮。"人类社会早就发现,团队合作往往能产生比个人更好的决策。当一群人聚在一起解决问题时,有人提出大胆想法,有人质疑细节,有人负责协调矛盾,这种多元视角的碰撞常常能找到最优解。研究团队发现,最新的AI推理模型竟然自发地学会了类似的策略。它们在解题时不是一条路走到黑,而是在内部创造了多个"虚拟角色",这些角色有着不同的性格特征和专业知识,相互提问、辩论、质疑,最终达成共识。

这项研究分析了超过8000个推理问题,涵盖数学、科学、逻辑等多个领域。研究人员对比了DeepSeek-R1、QwQ-32B这样的推理模型和普通的指令微调模型。他们惊讶地发现,推理模型的思考过程更像是一场多人会议,而不是一个人的独白。这些模型会在内部提出问题、转换观点、制造观点冲突,甚至协调不同意见,这些都是人类群体讨论时的典型特征。研究还发现,当面对更难的问题时,这种"社会化"的思考模式会变得更加明显。

推理模型内藏"对话机制"

研究团队首先想知道,这些推理模型的思考轨迹中到底有没有对话的痕迹。他们定义了四种对话行为:自问自答、观点转换、观点冲突和观点协调。自问自答就像你在解题时问自己"这个方法行得通吗",然后给出答案。观点转换是指考虑不同的解决路径,比如"也许我们应该换个角度"。观点冲突则是不同想法之间的激烈碰撞,像"不对,这个假设有问题"。观点协调是把相互矛盾的想法整合到一起,找到平衡点。

研究使用大语言模型作为评判员,分析了每个推理轨迹是否包含这些对话行为。结果令人震惊。DeepSeek-R1在自问自答方面的表现比其对应的非推理模型DeepSeek-V3高出34.5个百分点,观点转换高出21.3个百分点,观点协调高出19.1个百分点。QwQ-32B表现更加突出,自问自答高出45.9个百分点,观点转换高出37.8个百分点,观点冲突高出29.3个百分点,观点协调高出34.4个百分点。相比之下,普通的指令微调模型无论参数有多少(从8亿到6710亿),都几乎不显示这些对话特征。

研究还深入分析了模型表现出的社会情感角色。这里借用了心理学家贝尔斯的"互动过程分析"理论,该理论将群体互动分为12种角色,包括询问信息、提供信息、表达赞同、表达反对等。研究发现,推理模型不仅会"提供"信息,还会"询问"信息,不仅有"积极"的角色(如赞同、团结),还有"消极"的角色(如反对、对抗)。这种双向互动的平衡性正是人类有效讨论的标志。DeepSeek-R1在询问行为上比DeepSeek-V3高出18.9个百分点,消极角色高出16.2个百分点,积极角色高出27.8个百分点。

更有趣的是,研究用"杰卡德指数"衡量了角色配对的平衡性。这个指数可以理解为一种"搭档默契度"——如果一个推理轨迹既有询问又有回答,既有批评又有赞同,那么这个指数就会很高,说明模型在真正进行多角度思考,而不是偏向某一种模式。DeepSeek-R1在询问与给予的配对上比DeepSeek-V3高出22.2个百分点,在积极与消极角色的配对上高出18.9个百分点。这些数据都表明,推理模型确实在内部建立了某种"社会结构",而不是简单的独角戏。

研究还验证了一个直觉:越难的问题,越需要这种"社会化"思考。研究人员用两种方式衡量问题难度,一是让外部大语言模型评估复杂度,二是看普通指令微调模型在这些问题上的错误率。两种方式都显示,当DeepSeek-R1面对更复杂的问题时,对话行为和社会情感角色会更加频繁地出现。比如研究生水平的科学问题和复杂数学题都表现出强烈的对话模式,而简单的布尔表达式和基本逻辑推理题则很少显示对话特征。

为了搞清楚这些对话行为到底有没有实际作用,研究团队建立了结构方程模型,分析对话行为如何影响准确率。结果显示,对话行为和社会情感角色既直接提升准确率,又通过促进有用的认知策略(如验证、回溯、设置子目标、逆向推理)间接提升准确率。这意味着"社会化"思考不是花架子,而是真正帮助模型更好地探索解决方案空间。

操控对话特征能让AI变聪明

看到对话行为如此普遍,研究人员想进一步验证:如果人为增强或抑制这些对话特征,会不会直接影响推理能力?他们使用了一种叫"稀疏自编码器"的技术,可以把模型内部的神经网络激活分解成数万个可解释的特征。这就像给大脑做功能成像,看哪些区域负责哪些功能。

研究人员从32768个特征中筛选出一个特别的特征——编号30939。这个特征被描述为"表示惊讶、领悟或认同的话语标记",在对话场景中激活率高达65.7%,位列所有特征的前1%。它经常在"哦!""等等!""原来如此!"这类词汇上激活,正是对话中观点转换的典型标志。研究选择这个特征是因为心理学研究表明,惊讶的表达往往标志着观点的碰撞和协调,是社会互动的重要信号。

研究人员用了一个经典的数学推理任务——"倒计时游戏"来测试这个特征的作用。在这个游戏中,模型需要用给定的几个数字,通过加减乘除和括号,凑出一个目标数字。比如给你25、30、3、4四个数字,要凑出32,一个有效答案是(30-25+3)×4=32。这需要多步推理和试错。

实验结果令人震惊。当研究人员以+10的强度增强这个"惊讶"特征时,模型在倒计时游戏中的准确率从27.1%直接跃升到54.8%,几乎翻了一倍!而当以-10的强度抑制这个特征时,准确率反而下降到23.8%。更重要的是,增强这个特征不仅提高了准确率,还同时增加了所有四种对话行为的频率:自问自答增加了大约2.2倍,观点转换增加了1.16倍,观点冲突增加了1.06倍,观点协调增加了0.42倍。抑制这个特征则相反,所有对话行为都显著减少。

为了排除这只是碰巧选对了一个特征的可能性,研究人员又对比了随机选择的对话特征和非对话特征。结果显示,增强"惊讶"特征带来的准确率提升远超随机对话特征,而随机对话特征的效果也显著好于非对话特征。这说明对话相关的特征确实有助于推理,而不是任意扰动模型都能改善表现。

研究还深入挖掘了这个特征提升准确率的机制。他们发现,增强"惊讶"特征会系统性地增加四种关键认知行为:验证(检查之前的假设)增加了5.82倍,回溯(发现错误后返回重试)增加了0.88倍,设置子目标增加了0.62倍,逆向推理增加了0.81倍。这些都是已知能够提升推理能力的策略。相反,抑制这个特征会减少这些认知行为。

通过结构方程模型,研究人员分离出了直接效应和间接效应。增强"惊讶"特征对准确率有0.228的直接效应,同时还有0.066的间接效应,这个间接效应是通过促进验证、子目标设置和逆向推理实现的。这说明对话特征既能直接帮助模型更好地探索解决空间,又能通过激发有效的认知策略来提升表现。研究人员还展示了具体的推理轨迹变化:增强"惊讶"特征后,模型会主动质疑之前的方法,说"等等,让我想想...还有另一个办法...",显示出观点转换和冲突;而抑制这个特征后,推理变得平铺直叙,缺乏内部辩论。

推理模型内部有多个"人格"

既然推理模型表现出对话特征,那么这些对话是否真的来自不同的"视角"或"声音"?就像人类团队讨论时,每个成员有不同的性格和专长,推理模型内部是否也有类似的多样性?研究人员用大语言模型作为评判员,分析每个推理轨迹中隐含了多少个不同的"视角",以及这些视角在性格特征和专业知识上有多大差异。

研究人员首先用心理学中的"大五人格模型"评估了每个视角的性格特征,包括外向性、亲和性、神经质、开放性和尽责性。外向性代表是否善于社交,亲和性代表是否容易合作,神经质代表情绪波动程度,开放性代表对新想法的接受度,尽责性代表做事是否严谨。然后,研究人员计算了每个推理轨迹中这些性格特征的标准差,作为性格多样性的衡量标准。

结果显示,DeepSeek-R1在外向性上的多样性比DeepSeek-V3高出0.103个标准分,亲和性高出0.297,神经质高出0.567,开放性高出0.110。QwQ-32B的表现更突出,外向性多样性高出0.253,亲和性高出0.490,神经质高出0.825,开放性高出0.268。特别是亲和性和神经质的巨大差异,暗示推理模型内部的"声音"更容易产生分歧和情绪反应,这正是有效辩论的特征。有趣的是,尽责性的多样性在推理模型中反而更低,这意味着推理模型的所有"声音"都表现得更加勤奋和专注。研究人员指出,这种模式与人类团队研究的发现一致:外向性和神经质的多样性能提升团队表现,而尽责性的多样性可能损害协作效率。

研究还分析了专业知识的多样性。他们让大语言模型推断每个视角的专业领域,比如理论物理、分析推理、金融、创意写作等,然后计算这些专业描述在语义空间中的平均距离。距离越大,说明专业知识越多样化。DeepSeek-R1的专业多样性比DeepSeek-V3高出0.179个标准分,QwQ-32B比Qwen-2.5-32B-IT高出0.250个标准分。这说明推理模型不仅在性格上更多样化,在专业知识上也更加广泛地调用不同领域的视角。

为了验证这种多样性是否真实反映在模型内部,研究人员再次使用稀疏自编码器技术,这次分析的是与性格和专业相关的特征。他们首先把32768个特征分类为性格相关(如热情、沮丧)、专业相关(如编程术语、金融概念)或其他。然后,他们操控之前的"惊讶"特征,观察这如何影响性格和专业特征的激活。

研究用两个指标衡量多样性:覆盖度和熵。覆盖度是指激活了多少个不同的性格或专业特征,熵则衡量激活是否均匀分布,而不是集中在少数几个特征上。结果显示,增强"惊讶"特征(+10强度)会让推理轨迹激活更多的性格相关特征(增加315.9个)和专业相关特征(增加391.3个)。同时,熵也显著提高,性格特征熵增加0.262,专业特征熵增加0.096,说明激活更加均匀分布,而不只是简单地产生更多输出。

具体来看,增强"惊讶"特征后,一些有趣的性格特征被更频繁地激活,比如"表达困惑或沮丧的非正式表达"(特征21065)、"与社交互动和社区参与相关的短语"(特征26139)、"叙事中的情感或轰动性主题"(特征14476)。这些特征都与社交和情感表达密切相关,进一步证明对话特征激活了更丰富的"社会性"思考模式。

AI能自己学会"开会"吗?

前面的发现都是基于已经训练好的推理模型,比如DeepSeek-R1。但研究人员想知道:如果我们只奖励AI答对题,不告诉它要用对话方式思考,它会不会自发地学会"开会讨论"?为了回答这个问题,研究团队进行了一个受控的强化学习实验。

他们选择了一个未经任何指令微调的基础模型Qwen-2.5-3B,让它解决倒计时游戏。奖励机制非常简单:答对了给0.9分,格式正确(把思考过程放在 标签里,答案放在 标签里)给0.1分。注意,这里完全没有奖励对话行为,只奖励准确性和格式。

实验结果令人惊讶。随着训练进行,模型的准确率从接近零逐步提升到58%左右。与此同时,对话行为的频率也在增加,尽管这些行为并没有被直接奖励。自问自答和观点冲突的频率持续上升,观点转换也在增加。唯一没怎么增加的是观点协调,这暗示模型内部的不同方法在竞争,而不是形成有效的整体。

研究人员对比了训练第40步和第120步的推理轨迹。第40步时,模型主要进行线性的思维链推理,像一个人在自言自语。到了第120步,出现了两个明显不同的模拟人格,它们甚至使用"我们"这个代词来表示集体性。研究人员用大语言模型分析了这两个人格的特征。第40步的单一人格显示出全能型问题解决者的特征:高尽责性、中等开放性和亲和性、较低外向性和极低神经质。而第120步出现的两个协作者则表现出差异化的人格:一个强调试错式问题解决,外向性较低但亲和性较高;另一个专注于元认知推理,评估不同方法的可行性,开放性较高但尽责性明显较低。

这个实验表明,即使完全不奖励对话行为,模型也会自发地学会使用对话结构,因为这种结构能帮助它们更好地探索解决方案空间,从而获得更高的准确率奖励。对话不是被外部强加的风格,而是模型为了达成目标自然涌现的策略。

研究还做了一个对比实验:如果在强化学习开始前,先让模型接触一些对话式的推理样本,会不会加速它的学习?他们准备了三种初始数据:基线(没有预训练)、对话式推理样本、独白式推理样本。独白式样本虽然也能得到正确答案,但缺乏对话特征,更像是一个人的流畅陈述。

结果显示,用对话式样本预热的模型在强化学习早期阶段学得更快,准确率提升速度明显超过基线和独白式预热的模型。到训练第250步时,对话式预热的模型准确率达到78%,而基线和独白式预热的模型只有58%。更重要的是,对话式预热的模型从一开始就表现出更多的对话行为,而且这些行为的频率随着训练保持稳定甚至增加。相比之下,独白式预热的模型虽然一开始准确率略高于基线,但很快就被对话式模型超越。

研究还在另一个任务(政治错误信息检测)和另一个模型系统(Llama-3.2-3B)上重复了这个实验,得到了类似的结果。这进一步证明,对话结构不仅在简单的算术任务上有用,在更广泛的推理任务中也能加速学习。

这个发现的意义在于:对话结构提供了一种"脚手架",帮助模型更快地发现和完善推理策略。即使最终目标只是准确率,提供初始的对话框架也能显著加速达成这个目标的过程。这就像教孩子解题时,鼓励他们自问自答、考虑多种方法,比直接告诉答案更能培养思维能力。

思想的社会本质

这项研究提出了一个深刻的观点:推理模型不是简单地生成更长或更精细的思维链,而是展现出一种社会化和对话化的思考过程,形成"思想社会"。它们会提出问题、引入替代观点、产生并解决冲突、协调不同的社会情感角色。这些互动模式在不同规模的非推理模型中都很少出现(从80亿到6710亿参数),即使控制了推理轨迹长度,这说明推理优化引入了一种内在的社会结构,而不仅仅是增加文本量。

模型似乎通过模拟内部社会来进行推理,把思考构建为多个对话者之间的交流,而不是单一不间断的声音。关键在于,这种社会化推理是通过强化学习自发涌现的,因为它能持续产生正确答案,而不是通过显式的人类监督或微调。

这种结构不仅仅是风格问题。当DeepSeek-R1面对更困难的问题时,对话行为和社会情感角色会更频繁地被激活,而且它们能解释推理模型相对于非推理模型的很大一部分准确率优势。操控实验提供了证据,表明对话标记与推理表现直接相关。当研究人员增强与对话惊讶相关的特征时,多步推理任务的准确率翻倍。结构方程模型揭示,对话操控通过直接效应和间接路径(由验证、回溯、子目标设置、逆向推理等认知策略介导)影响准确率。这说明推理的社会结构可能不是附带现象,而是在机制上参与了模型如何探索解决空间和部署有效问题解决策略。

研究进一步发现,这种互动组织得到了推理轨迹中多个隐含"声音"的多样性支持。这些声音在性格特征和领域专业知识上系统性地变化,机制可解释性分析证实,当模型被引导向对话标记时,会激活更多样化的性格和专业相关特征。这种模式暗示,人类团队研究的发现——社交导向特征(如外向性和神经质)的多样性能提升集体表现,而任务导向特征(如尽责性)的多样性可能损害协调和效率——可能为解释语言模型的集体推理行为提供了有用的视角。有趣的是,大多数R1推理人格都表现得格外自律和勤奋!

强化学习实验进一步支持了对话结构的功能性作用。在多智能体对话上微调的模型比仅在正确的独白式推理轨迹上微调的模型学会推理更有效。因此,好处不在于初始推理的正确性,而在于对话组织提供的程序性脚手架。尽管这些实验使用的是相对较小的30亿参数模型,在简单的算术任务和错误信息检测任务上进行,但结果表明,即使推理轨迹中的最小社会结构也能加速通用推理行为的涌现。

这些发现共同表明,研究推理优化模型中的"社会扩展"很有价值。随着测试时计算的扩展,推理轨迹从孤立的独白演变为分化的内部视角之间的结构化对话。高性能推理似乎取决于注意力、角色扮演和冲突解决如何在涌现的"思想社会"中协调。研究的目标不是站队认为推理模型的轨迹应该被视为模拟人类群体之间的话语,还是计算思维对这种话语的模拟。事实上,正如研究指出的,即使这种区分也变得根本不清楚,因为一些认知理论认为成熟的个体思维本身就是从多智能体互动的模拟中发展而来的。

至顶AI实验室洞见

尽管如此,研究在成功推理模型上的发现与关于成功人类团队的先前文献(比如多样化的性格特征导致成功合作)之间的一致性表明,支配有效群体协作的原则可能为解释和工程化语言模型中的推理行为提供有价值的见解。这一视角延伸了关于人类团队协作的长期研究,其中群体构成和多样性通过性格和专业知识的变化塑造集体智能。AI系统中的类似动态在很大程度上仍未被探索。人机协作的早期调查已经开始刻画这个新兴领域,但多样性和协调如何在大语言模型的推理轨迹中运作仍然是一个开放的问题。DeepSeek-R1和QwQ的内部推理模式表明,这些模型可能已经自组织了一种富有成效的视角异质性,暗示多样性可能对人工推理和人类协作及集体优势一样基础。

AI领域越来越多的趋势涉及部署多个智能体的智能体架构,参与比单通道辩论更复杂的配置,包括层级、复杂网络甚至整个互动智能体机构。这项研究表明探索替代结构的重要性,但也要用多样化的视角、性格和专业知识来充实它们,这些在人类社会世界中驱动互补性和集体成功。理解多样性和社会脚手架如何互动可能会改变我们对大语言模型的概念化,从孤立的问题解决实体转向集体推理架构,在那里智能不仅来自规模,还来自不同声音的结构化互动。

这项研究揭示了一个令人着迷的现象:最先进的AI推理模型并不是变成了超级智能的"独行侠",而是学会了在内部模拟一个微型社会。就像人类几千年来依靠集体智慧解决复杂问题一样,AI也发现了同样的真理——多样化的视角、激烈的辩论、情感的张力和最终的协调,这些人类社会的特征竟然也是机器推理的关键。当我们下次让AI帮我们解决难题时,不妨记住:它可能正在内心召开一场热闹的"头脑风暴会议",只是这些讨论都发生在看不见的神经网络深处。或许,智能的本质从来都不是孤立的计算,而是社会性的对话,无论是人类还是机器。

论文地址:

https://arxiv.org/pdf/2601.10825

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:DeepSeek-R1等推理模型中的"思想社会"是什么?

A:思想社会是指AI推理模型在解决问题时内部模拟的多视角对话过程。就像人类团队讨论时有人提问、有人质疑、有人协调一样,这些模型会在内部创造多个虚拟角色,它们具有不同的性格特征和专业知识,通过自问自答、观点转换、制造冲突和协调矛盾来探索解决方案。研究发现这不是风格化的表达,而是真正提升推理准确率的机制。

Q2:为什么对话式思考能提高AI的推理能力?

A:对话式思考能提高AI推理能力主要有两个原因。直接原因是多视角能帮助模型更全面地探索解决空间,避免陷入单一思路。间接原因是对话结构会促进关键认知策略的运用,比如验证假设、发现错误后回溯、设置子目标、逆向推理等。研究通过操控实验证明,增强对话相关特征能让准确率翻倍,而且这个提升既有直接效应,也有通过认知策略实现的间接效应。

Q3:普通人能利用这项研究的发现吗?

A:虽然这是一项前沿AI研究,但它对普通人使用AI也有启发意义。当你用AI解决复杂问题时,不妨主动引导它采用对话式思考,比如要求它"从多个角度分析这个问题"或"提出反对意见并回应"。这可能会让AI给出更全面、更可靠的答案。未来,AI产品可能会内置这种对话式推理模式,让用户在遇到难题时自动获得更好的帮助,就像有一个专家团队在后台讨论一样。

相关内容

热门资讯

高性能不值钱的电动化时代,超跑... 静谧却势不可挡的电动化浪潮,席卷了整个汽车市场。这是一个告别燃烧汽油、发出轰鸣的内燃机,由电机接过动...
萨巴伦卡质疑澳网官方:为何不让... 世界第一萨巴伦卡今表示,她在澳洲公开赛被要求取下健康监测穿戴装置后,无法理解为何大会禁止佩戴此类设备...
“如果生成内容有误,我将赔偿您... 当你遇到问题向AI求助时,是否有过这样的经历:它迅速给出看似专业而合理的解答,可其中的事实、数据、结...
净利润预警“腰斩”,志邦家居如... 图源|网络 志邦家居正试图通过一场自我调整,穿越其上市以来最冷的“冬天”。 2025年业绩预告显示,...