以“人类”为名，Anthropic如何打造宪法式人工智能？_生活快讯

以“人类”为名，Anthropic如何打造宪法式人工智能？

创始人

2026-03-31 16:22:20

导语：作为与谷歌、OpenAI并驾齐驱的全球三大顶尖大模型企业，Anthropic有着什么样的与众不同？

王剑/作者 砺石商业评论/出品

2026年2月，硅谷有两则新闻令人震惊。

先是Anthropic的安全负责人突然辞职，留下“世界处于危险之中”的警告。

几乎同时，五角大楼要求这家AI公司解除其王牌模型Claude的核心安全限制，却遭到了坚决地拒绝。

一家公司的安全负责人与一个国家力量，在同一时间，从两个相反的方向，拉扯着同一条名为“AI安全”的缰绳。

而这根缰绳，正是这家名为Anthropic的公司存在的全部理由。

时间倒回2021年。出于对AI失控的深切恐惧，前OpenAI高管达里奥·阿莫迪（Dario Amodei）与负责安全政策的妹妹丹妮拉（Daniela Amodei）带领七名同事出走，创立了Anthropic。

他们的核心命题只有一个：如何控制比人类更聪明的AI。

仅仅四年间，这个以“控制风险”为使命的理想主义赌注，获得了惊人的商业回报：公司估值飙升至3800亿美元，客户名单囊括全球几乎最顶级的企业。

然而，由于国家力量的介入，这家曾经为防范风险而生的公司，似乎正被推入自己预言过的终极困局：你为世界铸造的护栏越坚固，试图拆除它的力量就越强大。

要理解Anthropic为何会走上这条充满理想主义的道路，又为何在此刻陷入自设的困局，需要回到一切的起点，看看赋予它最初基因的两个人。

皮革与硅基

达里奥和丹妮拉出生于一个意大利裔家庭，父亲是一位精通各类皮料的工匠，母亲则在当地图书馆从事项目管理工作。

兄妹二人自幼就读于旧金山一所精英公立学校，成绩都很优异，毕业后却走上了截然不同的人生道路。

哥哥达里奥的轨迹极具跳跃性，早年就读于加州理工，中途转至斯坦福取得物理学学士学位，随后在普林斯顿获得生物物理学博士学位，主攻神经回路统计力学模型。

博士毕业后，他又回到斯坦福医学院从事博士后研究，专注于利用质谱技术分析细胞蛋白质、寻找癌症生物标志物。

达里奥这个时期的经历，与AI毫无关联。

转变发生在2013年前后。

随着深度学习浪潮初起，AI圈对具备深厚数理功底和系统思维的人才求贤若渴，达里奥凭借顶尖的学术背景和解决复杂问题的能力，很快获得了证明自己的机会。

2014年，他加入百度参与Deep Speech 2.0语音识别项目，该成果获评当年最重要的AI突破之一。

此后不到一年，他转投Google Brain，在那里正式确立了自己在AI领域的核心方向：不只探索AI的能力边界，更执着于拆解AI的运行原理。

相比哥哥，妹妹丹妮拉的发展则更为非典型。

她凭借古典长笛奖学金，在加州大学圣克鲁兹分校攻读英语文学学位，毕业后进入公共事务领域，先后深耕全球健康研究、参与宾夕法尼亚州国会竞选、担任国会议员办公室通讯助理，在政策与政治核心圈层积累了丰富的实战经验。

随后她转向科技行业，作为金融科技公司Stripe的早期员工，亲历了初创企业从0到1的成长。

外界这样概括兄妹俩的角色：达里奥犹如眺望地平线的“望远镜”，丹妮拉则是夯实地基的“建筑师”，一个指明AI的方向，另一个将方向筑成可执行的制度与日程。

这种搭档模式也让达里奥想通了一个根本问题：打造AI不只是让机器更聪明，更是决定“聪明”该用于何处，这需要超越纯技术的多元视角。

丹妮拉后来接受采访时说的一句话，则点明了他们共同追求的终极方向：“在AI时代，人类的特质将变得更加重要，而不是更不重要。”

他们的父亲，一位皮革工匠，一生都在研究材料的极限。

而现在，他的两个孩子接过了这项工作的内核，只是兄妹俩研究的“材料”变了，从皮革换成了可能定义人类未来的人工智能本身。

临界点

2016年，达里奥离开Google Brain，加入了刚刚成立不久的OpenAI；妹妹丹妮拉于2018年跟随而来，负责人才建设，后转向安全与政策。

接下来的五年，达里奥在OpenAI做到研究副总裁，主导了GPT-2和GPT-3的开发，成为这家公司技术方向上最有分量的人之一。

兄妹二人在OpenAI都是较高级别的负责人，按理说，没有离开的理由。

但裂痕恰恰在GPT-3开发期间开始公开化。

随着技术的演变，GPT-3已不是一个普通的迭代，其千亿级的参数以及不断涌现的强大通用能力，让所有人都清醒地意识到，AI不再只是一个工具，它开始具备一种难以预测、难以控制的“智能”潜力。

这不再仅仅是技术竞赛，更是人类与未知风险的一场时间赛跑。

于是，根本性的路线之争浮出水面。

达里奥始终认为，面对如此强大的模型，必须“放慢更新速度以防止恶意使用”，发布前需要前所未有的、漫长的安全评估周期；而奥特曼的判断是，公司必须抓住历史机遇，快速迭代，尽快商业化，在竞争中确立领先地位。

俩人中，一个看到了必须慎之又慎的“临界点”，一个看到了不容有失的“时间窗”，可两种不同思维的逻辑，在同一家公司里已无法共存。

2020年12月29日，OpenAI官方宣布达里奥离职，“一小批同事随行”。这一小批，是7个人，包括妹妹丹妮拉。

2021年，Anthropic正式成立。公司名字来自希腊语“Anthropos”，意思是“人类”。

当时有人问达里奥，为什么要离开一家他亲手建立的公司。

他的回答是：“与别人的愿景争论，是极其没有效率的事情。”这句话没有一个字在抱怨，但每个字似乎都在说分歧有多深。

事实上，达里奥与奥特曼的分歧，本质不是个人恩怨，而是对同一个问题的根本性判断不同：当手里握着一个可能改变人类文明走向的技术，应该先问“它能做什么”，还是先问“它应该做什么”？

两个答案都没有错，只是难以在同一家公司里实现。

颇具戏剧性的是，2023年11月OpenAI董事会“宫斗”期间，曾秘密联系已出走的达里奥，试探他是否愿意回归，并取代奥特曼出任CEO，甚至探讨了两家公司合并的可能性。

达里奥拒绝了，这并非出于谦虚或顾虑，只因他亲手为Anthropic注入的“安全第一”基因，与OpenAI“有效加速”的底层逻辑，从根源上就无法兼容。

为人工智能立法

Anthropic成立之初，被质疑最多的是：你们和OpenAI有什么不一样？

毕竟在外人看来，两家企业都在做大语言模型，都在做AI助手，都在烧投资人的钱，似乎没有本质区别。

但两者根本区别是，如何对人工智能构建的体系进行何种排序。

以OpenAI为代表的行业主流选择了“性能优先，安全迭代”，其内在逻辑是将AI视为一种急需快速推向市场、占领生态位的颠覆性产品。

简单来说，这就是一种典型的、信奉“速度即壁垒”的互联网增长模式。

而Anthropic的路径则呈现出一种深刻的“反共识”特质，核心是“安全第一，功能殿后”。

这意味着，当用户的请求与“不造成损害”的核心原则相冲突时，Anthropic的模型会启动内置的审查机制，选择拒绝响应。

举个例子：当用户的一个请求可能隐含生成误导信息的风险时，或某一句玩笑话可能被解读为有害指令时，Anthropic旗下的Claude会选择拒绝，而不去执行。

显然，这种设计并不符合用户的期待，也让Anthropic得到了很多差评。但达里奥以及团队并不在意，甚至还将这套逻辑做成了一个叫“Constitutional AI”（宪法式人工智能）的方法论。

这相当于给AI制定一部“宪法”，即通过创造一套明确的价值观原则，让AI用这套原则评判和修正自己的输出。

在此之前，硅谷AI公司的通行做法叫“人类反馈强化学习”（RLHF），即通过雇佣大量人工标注员，对模型生成的回答逐一打分，告诉AI什么可以做，什么不可以做。

这个方法虽然有效，但存在一个根本缺陷：由于标注员的价值观难以统一，使得整个过程像个黑盒，没人能搞清楚模型究竟学到了什么。

而Constitutional想解决的，正是这个黑盒问题。

在达里奥看来，与其靠人来打分，不如先把原则写清楚，让AI对照原则审查自己。

前者旨在塑造一个“顺从的助手”，后者则试图培养一个“拥有原则的智能体”。

换言之，传统方法是为AI配置无数“教练”，通过“绩效激励”引导其行为；而宪法式AI是为AI授予一部“法典”，界定其所有行为的元规则与绝对边界。

这部“宪法”的核心，也最终被Anthropic浓缩成三个词：无害（Harmless）、诚实（Honest）、有帮助（Helpful）——也就是业内熟知的“3H框架”。

这个顺序不是随机排列的。

“无害”排第一，意味着当三者发生冲突时，Anthropic开发的Claude必须先确保不造成伤害；其次是不说谎，最后才是满足用户需求。

可以说，这个优先级，正是Anthropic与大多数AI公司最根本的分叉点。

这条路径也必然伴随着更高的工程复杂度、更长的研发周期，以及在市场竞争中因“不够顺从”而带来的短期劣势。

但达里奥曾说过一句话，道出了这件事背后的底层动机：“我们不理解自己的AI创造物是如何工作的。这在技术史上基本上是前所未有的。”

这是一个物理学博士的直觉，他始终认为在关乎文明走向的技术演进中，速度本身蕴藏着难以预估的代价，而有些代价，很可能会超出了人类文明的承载极限。

因此，Anthropic所选择的“慢”，恰恰是对一种可能未来的投资，一个智能依然可控的未来。

而这条被预设为更艰难的道路，在一个截然不同的竞技场里，却将“慢”和“克制”锻造成了一种稀缺的竞争力。

信任经济学

如果只看用户数量，Anthropic似乎处于下风。

Claude的数千万月活跃用户，与ChatGPT数亿量级的规模相比，根本不在一个梯队。

然而，在商业世界中，规模从来不是衡量成功的唯一标尺。

真正的较量，实际上发生在另一个维度——企业级市场。这里比拼的不是流量，而是信任。

而Anthropic几乎从创立之初，就精准地押注于此，并得到了使用者的肯定。

创立仅仅四年时间，Anthropic近80%的收入来源于企业客户，而非个人用户。

一个更具说服力的数据是，在《财富》全球500强中排名前十的巨头里，有八家已是Claude的付费用户。与此同时，过去一年中，那些年度合同价值超过十万美元的大型客户数量激增了近七倍。

这一切清晰地表明，Anthropic并未选择在拥挤的消费级市场“红海”中血战，而是成功地开拓并牢牢占据了一片以“企业级信任”为核心的高价值“蓝海”。

那么，企业为何纷纷选择它？

根本原因，依然是Anthropic信奉和坚持的“安全至上”原则。

正如达里奥曾指出的：“大多数人既低估了AI的潜力，也低估了它的风险。”

对于银行、制药公司或顶尖律所而言，它们需要的不是一个才华横溢却可能“信口开河”的聊天伙伴，而是一个能无缝嵌入核心业务流程、行为绝对可预测、输出极端稳定、权责清晰无误的“专业工具”。

试想，在处理临床试验数据时，AI的任何推断都必须有据可查；在审阅亿元级别的并购合同时，AI更不能“创造性”地编造条款，否则导致的将是灾难级的后果。

这些场景中，安全与可靠的商业价值，远高于创意与趣味。

而Anthropic将这种“可信”的承诺，真正转化为了可被精确度量与验证的性能指标。

2025年硅谷一项衡量AI“虚构事实”倾向的核心测试“幻觉率”测试中，Claude 3.5 Sonnet仅为3.9%，显著优于行业基准GPT-4的5.8%。

这一个多百分点的差距，在普通对话中或许难以察觉，但在药物分子设计或金融风险建模中，则意味着风险等级的质的不同。

如此微小的优势，也恰恰成为企业法务与风控部门选择供应商时的决定性门槛。

市场其实也早为这份稀缺的“确定性”，给出了肯定。

据行业报告，Anthropic的年化营收在短短14个月内，从约10亿美元飙升至近140亿美元，实现了惊人的14倍增长。

这一商业奇迹的背后，离不开亚马逊与谷歌等行业巨头的鼎力支持。

它们分别通过累计40亿和30亿美元的资本投入，将Claude深度集成并优先部署在各自的云服务平台（AWS Bedrock与Google Vertex AI）之上。

这意味着，全球数百万家已经依赖这些云服务的企业，可以在其现有、安全、合规的IT架构内，直接且便捷地调用Claude的能力。

而这两大云平台，实质上成为Anthropic直达企业决策核心的、现成的全球化“高速通道”与强大的“信任背书”。

它们的投资，也让Anthropic的“信任逻辑”再次得到验证，成为其在AI时代竞争力的关键性背书。

与此同时，专为程序员设计的Claude Code，上线不到一年，年收入就冲到了25亿美元。

这个数字的背后，是开发者和企业用同样的逻辑投票：他们把最值钱的东西（代码和核心数据）交给Anthropic，不是因为他们的AI最炫酷，而是因为旗下的AI行为最可预测、最稳定。

在一个技术日新月异、充满未知的行业里，这种“不犯错”的确定性，显然比“什么都会”但偶尔胡来的“聪明”，要值钱得多。

在这个崇尚速度与规模的时代，Anthropic将对于安全边界的审慎守护，最终锻造为了一份能够被企业客户用巨额预算购买的“确定性”承诺。

而Anthropic也以一种近乎固执的坚持证明了，“克制”本身可以成为一种强大且可商业化的核心竞争力。

未解之题

回到文章开篇的消息。

2026年2月9日，Anthropic的安全负责人Sharma辞职离任，留下一句简短却沉重的警告：“世界处于危险之中。”

就在同一个月，外界发现，Anthropic官网上的“安全承诺”已被悄然修改，替换为一个更温和的表述：“风险报告”。

旧版承诺曾赋予安全团队一项关键权力，允许其在必要时“冻结”高风险模型的发布，可新版框架却变得更为“灵活”。

这意味着，在商业目标面前，Anthropic曾经坚守的安全原则防线可能已经出现了松动。

巧合的是，Sharma的离职，恰恰发生在这个变动之后。

两件事接踵而至，也传递出一个清晰的信号：商业扩张的引力，明显压过了Anthropic曾经倡导的“安全至上”初心。

AI的安全，从来不是一个可以一劳永逸“解决”的技术问题，而是一种伴随着能力增长而日益绷紧的永恒张力。

不难看出，对一家技术型公司来说，技术越强大，这份责任就越大；而商业越成功，所面临的平衡压力也越复杂。

对于Anthropic来说，眼下更深层的困境正逐步浮现：自身所依赖的那部“AI宪法”，其核心原则究竟交由谁来定义？

此外，Anthropic所坚持的“过度安全”也一直被质疑：那些因Claude坚守原则而拒绝的请求中，是否会有真正有益、却被误挡在护栏之外的可能？

面对这种关于“度”的永恒争议，很难得到真正的答案。

达里奥与丹妮拉选择了跃入潮水之中，并试图在洪流里拉起一道绳索，目的是“让AI知晓它不应涉足的边界”。

可问题是，这一切能否坚持下去？

无人知晓，一切依然需要时间的检验。

达里奥与丹妮拉的父亲，那位意大利裔的皮革工匠，穷尽一生去理解手中材料的极限。

而如今，他的两个孩子正在做着同样的事。

只是这一次，他们手中的“材料”，叫做“人工智能”。

参考文献：

中文文献：

[1] 李根. 达里奥·阿莫迪：我们为什么要离开OpenAI[J]. 极客公园，2023(11). https：

//www.geekpark.net/news/328741

[2] 沈建缘. Anthropic：一家以“安全”为名的AI独角兽如何估值400亿美元[J]. 财经，2024(3)：48–53.

[3] 吴晨. AI安全的政治经济学：从Anthropic看大模型治理困局[J]. 哈佛商业评论（中文版），2024(6)：32–39.

[4] 谢璐. Claude vs ChatGPT：企业级AI市场的信任之战[J]. 第一财经周刊，2025(2)：54–59.

[5] 刘旷. Constitutional AI：当人工智能拥有“宪法”[EB/OL]. 钛媒体，2023-03-20. https：

//www.tmtpost.com/6596873.html

[6] 王煜全. 大模型安全竞赛：美国AI公司的分化与重组[J]. 中国科技财富，2024(9)：22–27.

[7] 周源. 五角大楼与Claude：国家力量介入AI安全的边界在哪里[N]. 21世纪经济报道，2026-02-15(A4).

[8] 俞朝翎. 从OpenAI到Anthropic：硅谷AI安全主义者的理念之争[J]. 新经济导刊，2024(4)：18–25.

[9] 甲子光年. 亚马逊40亿美元押注Anthropic：云厂商的AI底座战争[EB/OL]. 甲子光年，2024-01-09. https：

//www.jazzyear.com/article_info.html?id=1138

[10] 高小倩. HHH框架：Anthropic如何用“无害、诚实、有帮助”重塑AI对齐[J]. 人工智能学报，2024，7(2)：45–52.

英文文献：

[11] Amodei， D.， Mané， A.， Ziegler， D.， et al. (2022). Constitutional AI： Harmlessness from AI Feedback. Anthropic. https：//arxiv.org/abs/2212.08073

[12] Bai， Y.， Jones， A.， Ndousse， K.， et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv preprint， arXiv：2204.05862. https：//arxiv.org/abs/2204.05862

[13] Perez， S.， & Conger， K. (2023， November 20). OpenAI board considered Dario Amodei as potential CEO replacement during Altman drama. TechCrunch. https：//techcrunch.com/2023/11/20/openai-board-considered-dario-amodei-as-potential-ceo/

[14] Sharma， M. (2026， February 9). On leaving Anthropic [Public Statement]. https：//mrinankshweb.com/leaving-anthropic

[15] Wiggers， K. (2024， January 8). Amazon completes $4 billion Anthropic investment. TechCrunch. https：//techcrunch.com/2024/01/08/amazon-completes-4-billion-anthropic-investment/

[16] Bass， D.， & Gurman， M. (2025， December 4). Anthropic's annualized revenue hits$4 billion， nearing OpenAI. Bloomberg Technology. https：//www.bloomberg.com/news/articles/2025-12-04/anthropic-revenue

[17] Knight， W. (2023， May 2). The AI Safety Problem That Never Gets Solved. WIRED. https：//www.wired.com/story/anthropic-constitutional-ai-alignment/

[18] Anthropic. (2023). Claude's Constitution. Anthropic Research Blog. https：//www.anthropic.com/index/claudes-constitution

[19] Kang， C.， & Metz， C. (2021， April 6). Researchers Are Making More Than $1 Million， Even at a Nonprofit. The New York Times. https：//www.nytimes.com/2021/04/06/technology/openai-salaries.html

[20] Tiku， N. (2026， February 12). Pentagon asked Anthropic to strip Claude's safety limits. The answer was no. The Washington Post. https：//www.washingtonpost.com/technology/2026/02/12/pentagon-anthropic-claude-safety/

上一篇：10台全屋净水6台是安吉尔，这家隐形冠军为何能把握“水中乾坤”？

下一篇：固定道波长色散型X荧光光谱仪被动隔振器如何设计

以“人类”为名，Anthropic如何打造宪法式人工智能？

相关内容

热门资讯