以“人类”为名,Anthropic如何打造宪法式人工智能?
创始人
2026-03-31 16:22:20

导语:作为与谷歌、OpenAI并驾齐驱的全球三大顶尖大模型企业,Anthropic有着什么样的与众不同?

王剑/作者 砺石商业评论/出品

2026年2月,硅谷有两则新闻令人震惊。

先是Anthropic的安全负责人突然辞职,留下“世界处于危险之中”的警告。

几乎同时,五角大楼要求这家AI公司解除其王牌模型Claude的核心安全限制,却遭到了坚决地拒绝。

一家公司的安全负责人与一个国家力量,在同一时间,从两个相反的方向,拉扯着同一条名为“AI安全”的缰绳。

而这根缰绳,正是这家名为Anthropic的公司存在的全部理由。

时间倒回2021年。出于对AI失控的深切恐惧,前OpenAI高管达里奥·阿莫迪(Dario Amodei)与负责安全政策的妹妹丹妮拉(Daniela Amodei)带领七名同事出走,创立了Anthropic。

他们的核心命题只有一个:如何控制比人类更聪明的AI。

仅仅四年间,这个以“控制风险”为使命的理想主义赌注,获得了惊人的商业回报:公司估值飙升至3800亿美元,客户名单囊括全球几乎最顶级的企业。

然而,由于国家力量的介入,这家曾经为防范风险而生的公司,似乎正被推入自己预言过的终极困局:你为世界铸造的护栏越坚固,试图拆除它的力量就越强大。

要理解Anthropic为何会走上这条充满理想主义的道路,又为何在此刻陷入自设的困局,需要回到一切的起点,看看赋予它最初基因的两个人。

1

皮革与硅基

达里奥和丹妮拉出生于一个意大利裔家庭,父亲是一位精通各类皮料的工匠,母亲则在当地图书馆从事项目管理工作。

兄妹二人自幼就读于旧金山一所精英公立学校,成绩都很优异,毕业后却走上了截然不同的人生道路。

哥哥达里奥的轨迹极具跳跃性,早年就读于加州理工,中途转至斯坦福取得物理学学士学位,随后在普林斯顿获得生物物理学博士学位,主攻神经回路统计力学模型。

博士毕业后,他又回到斯坦福医学院从事博士后研究,专注于利用质谱技术分析细胞蛋白质、寻找癌症生物标志物。

达里奥这个时期的经历,与AI毫无关联。

转变发生在2013年前后。

随着深度学习浪潮初起,AI圈对具备深厚数理功底和系统思维的人才求贤若渴,达里奥凭借顶尖的学术背景和解决复杂问题的能力,很快获得了证明自己的机会。

2014年,他加入百度参与Deep Speech 2.0语音识别项目,该成果获评当年最重要的AI突破之一。

此后不到一年,他转投Google Brain,在那里正式确立了自己在AI领域的核心方向:不只探索AI的能力边界,更执着于拆解AI的运行原理。

相比哥哥,妹妹丹妮拉的发展则更为非典型。

她凭借古典长笛奖学金,在加州大学圣克鲁兹分校攻读英语文学学位,毕业后进入公共事务领域,先后深耕全球健康研究、参与宾夕法尼亚州国会竞选、担任国会议员办公室通讯助理,在政策与政治核心圈层积累了丰富的实战经验。

随后她转向科技行业,作为金融科技公司Stripe的早期员工,亲历了初创企业从0到1的成长。

外界这样概括兄妹俩的角色:达里奥犹如眺望地平线的“望远镜”,丹妮拉则是夯实地基的“建筑师”,一个指明AI的方向,另一个将方向筑成可执行的制度与日程。

这种搭档模式也让达里奥想通了一个根本问题:打造AI不只是让机器更聪明,更是决定“聪明”该用于何处,这需要超越纯技术的多元视角。

丹妮拉后来接受采访时说的一句话,则点明了他们共同追求的终极方向:“在AI时代,人类的特质将变得更加重要,而不是更不重要。”

他们的父亲,一位皮革工匠,一生都在研究材料的极限。

而现在,他的两个孩子接过了这项工作的内核,只是兄妹俩研究的“材料”变了,从皮革换成了可能定义人类未来的人工智能本身。

2

临界点

2016年,达里奥离开Google Brain,加入了刚刚成立不久的OpenAI;妹妹丹妮拉于2018年跟随而来,负责人才建设,后转向安全与政策。

接下来的五年,达里奥在OpenAI做到研究副总裁,主导了GPT-2和GPT-3的开发,成为这家公司技术方向上最有分量的人之一。

兄妹二人在OpenAI都是较高级别的负责人,按理说,没有离开的理由。

但裂痕恰恰在GPT-3开发期间开始公开化。

随着技术的演变,GPT-3已不是一个普通的迭代,其千亿级的参数以及不断涌现的强大通用能力,让所有人都清醒地意识到,AI不再只是一个工具,它开始具备一种难以预测、难以控制的“智能”潜力。

这不再仅仅是技术竞赛,更是人类与未知风险的一场时间赛跑。

于是,根本性的路线之争浮出水面。

达里奥始终认为,面对如此强大的模型,必须“放慢更新速度以防止恶意使用”,发布前需要前所未有的、漫长的安全评估周期;而奥特曼的判断是,公司必须抓住历史机遇,快速迭代,尽快商业化,在竞争中确立领先地位。

俩人中,一个看到了必须慎之又慎的“临界点”,一个看到了不容有失的“时间窗”,可两种不同思维的逻辑,在同一家公司里已无法共存。

2020年12月29日,OpenAI官方宣布达里奥离职,“一小批同事随行”。这一小批,是7个人,包括妹妹丹妮拉。

2021年,Anthropic正式成立。公司名字来自希腊语“Anthropos”,意思是“人类”。

当时有人问达里奥,为什么要离开一家他亲手建立的公司。

他的回答是:“与别人的愿景争论,是极其没有效率的事情。”这句话没有一个字在抱怨,但每个字似乎都在说分歧有多深。

事实上,达里奥与奥特曼的分歧,本质不是个人恩怨,而是对同一个问题的根本性判断不同:当手里握着一个可能改变人类文明走向的技术,应该先问“它能做什么”,还是先问“它应该做什么”?

两个答案都没有错,只是难以在同一家公司里实现。

颇具戏剧性的是,2023年11月OpenAI董事会“宫斗”期间,曾秘密联系已出走的达里奥,试探他是否愿意回归,并取代奥特曼出任CEO,甚至探讨了两家公司合并的可能性。

达里奥拒绝了,这并非出于谦虚或顾虑,只因他亲手为Anthropic注入的“安全第一”基因,与OpenAI“有效加速”的底层逻辑,从根源上就无法兼容。

3

为人工智能立法

Anthropic成立之初,被质疑最多的是:你们和OpenAI有什么不一样?

毕竟在外人看来,两家企业都在做大语言模型,都在做AI助手,都在烧投资人的钱,似乎没有本质区别。

但两者根本区别是,如何对人工智能构建的体系进行何种排序。

以OpenAI为代表的行业主流选择了“性能优先,安全迭代”,其内在逻辑是将AI视为一种急需快速推向市场、占领生态位的颠覆性产品。

简单来说,这就是一种典型的、信奉“速度即壁垒”的互联网增长模式。

而Anthropic的路径则呈现出一种深刻的“反共识”特质,核心是“安全第一,功能殿后”。

这意味着,当用户的请求与“不造成损害”的核心原则相冲突时,Anthropic的模型会启动内置的审查机制,选择拒绝响应。

举个例子:当用户的一个请求可能隐含生成误导信息的风险时,或某一句玩笑话可能被解读为有害指令时,Anthropic旗下的Claude会选择拒绝,而不去执行。

显然,这种设计并不符合用户的期待,也让Anthropic得到了很多差评。但达里奥以及团队并不在意,甚至还将这套逻辑做成了一个叫“Constitutional AI”(宪法式人工智能)的方法论。

这相当于给AI制定一部“宪法”,即通过创造一套明确的价值观原则,让AI用这套原则评判和修正自己的输出。

在此之前,硅谷AI公司的通行做法叫“人类反馈强化学习”(RLHF),即通过雇佣大量人工标注员,对模型生成的回答逐一打分,告诉AI什么可以做,什么不可以做。

这个方法虽然有效,但存在一个根本缺陷:由于标注员的价值观难以统一,使得整个过程像个黑盒,没人能搞清楚模型究竟学到了什么。

而Constitutional想解决的,正是这个黑盒问题。

在达里奥看来,与其靠人来打分,不如先把原则写清楚,让AI对照原则审查自己。

前者旨在塑造一个“顺从的助手”,后者则试图培养一个“拥有原则的智能体”。

换言之,传统方法是为AI配置无数“教练”,通过“绩效激励”引导其行为;而宪法式AI是为AI授予一部“法典”,界定其所有行为的元规则与绝对边界。

这部“宪法”的核心,也最终被Anthropic浓缩成三个词:无害(Harmless)、诚实(Honest)、有帮助(Helpful)——也就是业内熟知的“3H框架”。

这个顺序不是随机排列的。

“无害”排第一,意味着当三者发生冲突时,Anthropic开发的Claude必须先确保不造成伤害;其次是不说谎,最后才是满足用户需求。

可以说,这个优先级,正是Anthropic与大多数AI公司最根本的分叉点。

这条路径也必然伴随着更高的工程复杂度、更长的研发周期,以及在市场竞争中因“不够顺从”而带来的短期劣势。

但达里奥曾说过一句话,道出了这件事背后的底层动机:“我们不理解自己的AI创造物是如何工作的。这在技术史上基本上是前所未有的。”

这是一个物理学博士的直觉,他始终认为在关乎文明走向的技术演进中,速度本身蕴藏着难以预估的代价,而有些代价,很可能会超出了人类文明的承载极限。

因此,Anthropic所选择的“慢”,恰恰是对一种可能未来的投资,一个智能依然可控的未来。

而这条被预设为更艰难的道路,在一个截然不同的竞技场里,却将“慢”和“克制”锻造成了一种稀缺的竞争力。

4

信任经济学

如果只看用户数量,Anthropic似乎处于下风。

Claude的数千万月活跃用户,与ChatGPT数亿量级的规模相比,根本不在一个梯队。

然而,在商业世界中,规模从来不是衡量成功的唯一标尺。

真正的较量,实际上发生在另一个维度——企业级市场。这里比拼的不是流量,而是信任。

而Anthropic几乎从创立之初,就精准地押注于此,并得到了使用者的肯定。

创立仅仅四年时间,Anthropic近80%的收入来源于企业客户,而非个人用户。

一个更具说服力的数据是,在《财富》全球500强中排名前十的巨头里,有八家已是Claude的付费用户。与此同时,过去一年中,那些年度合同价值超过十万美元的大型客户数量激增了近七倍。

这一切清晰地表明,Anthropic并未选择在拥挤的消费级市场“红海”中血战,而是成功地开拓并牢牢占据了一片以“企业级信任”为核心的高价值“蓝海”。

那么,企业为何纷纷选择它?

根本原因,依然是Anthropic信奉和坚持的“安全至上”原则。

正如达里奥曾指出的:“大多数人既低估了AI的潜力,也低估了它的风险。”

对于银行、制药公司或顶尖律所而言,它们需要的不是一个才华横溢却可能“信口开河”的聊天伙伴,而是一个能无缝嵌入核心业务流程、行为绝对可预测、输出极端稳定、权责清晰无误的“专业工具”。

试想,在处理临床试验数据时,AI的任何推断都必须有据可查;在审阅亿元级别的并购合同时,AI更不能“创造性”地编造条款,否则导致的将是灾难级的后果。

这些场景中,安全与可靠的商业价值,远高于创意与趣味。

而Anthropic将这种“可信”的承诺,真正转化为了可被精确度量与验证的性能指标。

2025年硅谷一项衡量AI“虚构事实”倾向的核心测试“幻觉率”测试中,Claude 3.5 Sonnet仅为3.9%,显著优于行业基准GPT-4的5.8%。

这一个多百分点的差距,在普通对话中或许难以察觉,但在药物分子设计或金融风险建模中,则意味着风险等级的质的不同。

如此微小的优势,也恰恰成为企业法务与风控部门选择供应商时的决定性门槛。

市场其实也早为这份稀缺的“确定性”,给出了肯定。

据行业报告,Anthropic的年化营收在短短14个月内,从约10亿美元飙升至近140亿美元,实现了惊人的14倍增长。

这一商业奇迹的背后,离不开亚马逊与谷歌等行业巨头的鼎力支持。

它们分别通过累计40亿和30亿美元的资本投入,将Claude深度集成并优先部署在各自的云服务平台(AWS Bedrock与Google Vertex AI)之上。

这意味着,全球数百万家已经依赖这些云服务的企业,可以在其现有、安全、合规的IT架构内,直接且便捷地调用Claude的能力。

而这两大云平台,实质上成为Anthropic直达企业决策核心的、现成的全球化“高速通道”与强大的“信任背书”。

它们的投资,也让Anthropic的“信任逻辑”再次得到验证,成为其在AI时代竞争力的关键性背书。

与此同时,专为程序员设计的Claude Code,上线不到一年,年收入就冲到了25亿美元。

这个数字的背后,是开发者和企业用同样的逻辑投票:他们把最值钱的东西(代码和核心数据)交给Anthropic,不是因为他们的AI最炫酷,而是因为旗下的AI行为最可预测、最稳定。

在一个技术日新月异、充满未知的行业里,这种“不犯错”的确定性,显然比“什么都会”但偶尔胡来的“聪明”,要值钱得多。

在这个崇尚速度与规模的时代,Anthropic将对于安全边界的审慎守护,最终锻造为了一份能够被企业客户用巨额预算购买的“确定性”承诺。

而Anthropic也以一种近乎固执的坚持证明了,“克制”本身可以成为一种强大且可商业化的核心竞争力。

5

未解之题

回到文章开篇的消息。

2026年2月9日,Anthropic的安全负责人Sharma辞职离任,留下一句简短却沉重的警告:“世界处于危险之中。”

就在同一个月,外界发现,Anthropic官网上的“安全承诺”已被悄然修改,替换为一个更温和的表述:“风险报告”。

旧版承诺曾赋予安全团队一项关键权力,允许其在必要时“冻结”高风险模型的发布,可新版框架却变得更为“灵活”。

这意味着,在商业目标面前,Anthropic曾经坚守的安全原则防线可能已经出现了松动。

巧合的是,Sharma的离职,恰恰发生在这个变动之后。

两件事接踵而至,也传递出一个清晰的信号:商业扩张的引力,明显压过了Anthropic曾经倡导的“安全至上”初心。

AI的安全,从来不是一个可以一劳永逸“解决”的技术问题,而是一种伴随着能力增长而日益绷紧的永恒张力。

不难看出,对一家技术型公司来说,技术越强大,这份责任就越大;而商业越成功,所面临的平衡压力也越复杂。

对于Anthropic来说,眼下更深层的困境正逐步浮现:自身所依赖的那部“AI宪法”,其核心原则究竟交由谁来定义?

此外,Anthropic所坚持的“过度安全”也一直被质疑:那些因Claude坚守原则而拒绝的请求中,是否会有真正有益、却被误挡在护栏之外的可能?

面对这种关于“度”的永恒争议,很难得到真正的答案。

达里奥与丹妮拉选择了跃入潮水之中,并试图在洪流里拉起一道绳索,目的是“让AI知晓它不应涉足的边界”。

可问题是,这一切能否坚持下去?

无人知晓,一切依然需要时间的检验。

达里奥与丹妮拉的父亲,那位意大利裔的皮革工匠,穷尽一生去理解手中材料的极限。

而如今,他的两个孩子正在做着同样的事。

只是这一次,他们手中的“材料”,叫做“人工智能”。

参考文献:

中文文献:

[1] 李根. 达里奥·阿莫迪:我们为什么要离开OpenAI[J]. 极客公园,2023(11). https:

//www.geekpark.net/news/328741

[2] 沈建缘. Anthropic:一家以“安全”为名的AI独角兽如何估值400亿美元[J]. 财经,2024(3):48–53.

[3] 吴晨. AI安全的政治经济学:从Anthropic看大模型治理困局[J]. 哈佛商业评论(中文版),2024(6):32–39.

[4] 谢璐. Claude vs ChatGPT:企业级AI市场的信任之战[J]. 第一财经周刊,2025(2):54–59.

[5] 刘旷. Constitutional AI:当人工智能拥有“宪法”[EB/OL]. 钛媒体,2023-03-20. https:

//www.tmtpost.com/6596873.html

[6] 王煜全. 大模型安全竞赛:美国AI公司的分化与重组[J]. 中国科技财富,2024(9):22–27.

[7] 周源. 五角大楼与Claude:国家力量介入AI安全的边界在哪里[N]. 21世纪经济报道,2026-02-15(A4).

[8] 俞朝翎. 从OpenAI到Anthropic:硅谷AI安全主义者的理念之争[J]. 新经济导刊,2024(4):18–25.

[9] 甲子光年. 亚马逊40亿美元押注Anthropic:云厂商的AI底座战争[EB/OL]. 甲子光年,2024-01-09. https:

//www.jazzyear.com/article_info.html?id=1138

[10] 高小倩. HHH框架:Anthropic如何用“无害、诚实、有帮助”重塑AI对齐[J]. 人工智能学报,2024,7(2):45–52.

英文文献:

[11] Amodei, D., Mané, A., Ziegler, D., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic. https://arxiv.org/abs/2212.08073

[12] Bai, Y., Jones, A., Ndousse, K., et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv preprint, arXiv:2204.05862. https://arxiv.org/abs/2204.05862

[13] Perez, S., & Conger, K. (2023, November 20). OpenAI board considered Dario Amodei as potential CEO replacement during Altman drama. TechCrunch. https://techcrunch.com/2023/11/20/openai-board-considered-dario-amodei-as-potential-ceo/

[14] Sharma, M. (2026, February 9). On leaving Anthropic [Public Statement]. https://mrinankshweb.com/leaving-anthropic

[15] Wiggers, K. (2024, January 8). Amazon completes $4 billion Anthropic investment. TechCrunch. https://techcrunch.com/2024/01/08/amazon-completes-4-billion-anthropic-investment/

[16] Bass, D., & Gurman, M. (2025, December 4). Anthropic's annualized revenue hits$4 billion, nearing OpenAI. Bloomberg Technology. https://www.bloomberg.com/news/articles/2025-12-04/anthropic-revenue

[17] Knight, W. (2023, May 2). The AI Safety Problem That Never Gets Solved. WIRED. https://www.wired.com/story/anthropic-constitutional-ai-alignment/

[18] Anthropic. (2023). Claude's Constitution. Anthropic Research Blog. https://www.anthropic.com/index/claudes-constitution

[19] Kang, C., & Metz, C. (2021, April 6). Researchers Are Making More Than $1 Million, Even at a Nonprofit. The New York Times. https://www.nytimes.com/2021/04/06/technology/openai-salaries.html

[20] Tiku, N. (2026, February 12). Pentagon asked Anthropic to strip Claude's safety limits. The answer was no. The Washington Post. https://www.washingtonpost.com/technology/2026/02/12/pentagon-anthropic-claude-safety/

相关内容

热门资讯

1947年,刘伯承罕见严厉批评... 1947年8月22日,一封来自汝河前线的电报直发给华东野战军的陈唐兵团。发报人是刘伯承,内容简直不容...
6.58万起,零跑A10如何重... 2026年3月26日,零跑汽车正式发布了其全新A平台的首款全球化车型——零跑A10,将这款纯电SUV...
清明祭扫、踏青如何避堵?这个出... 2026年清明节即将到来,为确保清明节假期期间全市道路安全畅通,郑州交警提前部署,结合辖区特点加强指...
外交部揭底自卫队官员为何持刀闯... 3月31日,外交部发言人毛宁主持例行记者会。有记者提问,据报道,持刀闯入中国驻日本大使馆的自卫队官员...
从“会聊天”到“会看病” 如何... “大语言模型从‘会聊天’到‘会看病’,还有多远?”在近日召开的2026中关村论坛年会“智赋生命健康·...