今天 Anthropic 突然抛出Claude Fable 5和Mythos 5。如果只按纯粹的聊天体验去测试它,Fable 5 甚至可能让你觉得有些地方还不如 4.6。
它的本质其实:Fable 5 并不是一个单纯的孤立大模型,而是一个被“策略路由器”和“安全防火墙”重重包裹的工程化产品包。
底座是 Mythos-class,就是那个之前号称能力逆天的大模型,外面套了 safeguards、fallback、审计、数据保留和可信访问计划。
这套逻辑简单理解的话就是:你用 Claude 网页端或 API 选择 Fable 5 时,你的输入会先过一个前置分类器(Classifier)。
你问安全问题(如:古诗词怎么写、基础前端代码):分类器放行,调用真正的 Fable 5 纯血能力回答,体验拉满。
你问敏感/高危问题(如:网络安全渗透、生物化学合成、甚至涉及模型蒸馏的敏感提示词):分类器瞬间警觉,直接在后台把模型无缝切换到次一级的 Opus 4.8 来回答你,或者直接在 API 层返回结构化拒绝(Refusal)。
官方透露,这个安全分类器平均在不到 5% 的 Session 中会被触发。这个数字听起来不高,但在人群中的分布极不均匀:普通写文章、文书分析的用户可能一辈子碰不到;但如果你是搞安全研究、生物制药、或者试图“白嫖”Anthropic 逻辑来训练自己模型的开发者,你会频繁“撞墙”。
也就是说,Fable 5 的体验不是一个固定的点,而是一个概率分布。你以为你用的是同一个模型,其实你在不同风险区间摸到的是完全不同的能力面。
01
发布背景
为什么 Anthropic 选择在这个时间点发布?
因为 Anthropic 此时此刻正面临三股同时上桌的巨大压力:商业变现压力、监管合规压力、能力展示(及 IPO 前期)的压力。
对市场: 它必须证明自己不只是一家只会讲“AI 安全(Safety)”叙事的情怀公司,手里确实握着超越上一代的下一代大模型核武器;
对监管: 它绝对不敢把底座Mythos原汁原味地直接端上餐桌,否则其强大的网络安全、生物化学、模型蒸馏(白嫖训练)等高危能力,会立刻变成监管和舆论的集火靶心。
所以,Anthropic 这次玩了一手极高明的“金蝉脱壳”:它把高风险的顶级模型能力,拆成了一个可出售、可监控、可降级、同时也能向监管交代的产品包。
大模型行业正式跨入新阶段。模型本身强不强只是第一层;强模型如何被部署、被切流、被限制、被审计,变成了同等重要的硬核技术。
02
模型定位
公开版 Mythos 不等于无约束 Mythos
官方把它定义为 Anthropic 迄今最强的广泛发布模型,并明确说 Mythos-class 是高于 Opus class 的能力层级。
版本 |
定位 |
差异 |
|---|---|---|
Claude Fable 5 |
公开可用的 Mythos-class 模型 |
带更强安全分类器,敏感请求可能 fallback |
Claude Mythos 5 |
受限访问版本 |
部分 safeguards 被移除,面向 Glasswing / 可信客户 |
Claude Opus 4.8 |
次一级高能力模型 |
Fable 5 触发某些分类器后的 fallback 目标 |
过去模型发布通常会讲模型 A 比模型 B 更强。Fable 5 这次更像同一个高能力底座,按风险场景露出不同的能力面。这和传统软件里的 feature flag、权限分层、策略路由很像,只不过这里被路由的对象从按钮变成了模型能力本身。
Anthropic 官方说,Fable 5 的 safeguards 平均在不到 5% 的 sessions 里触发。这个数字听起来不高,但它不是均匀分布的。普通写作、文档分析、代码解释可能很少碰到;安全研究、生物科研、模型训练和蒸馏相关工作,就更容易撞上。
也就是说,Fable 5 的真实体验不是一个固定点,更像一个分布。用户以为自己一直在用同一个模型,但实际在不同风险区间里,摸到的可能是不同的能力面。
这恰恰是它最值得研究的地方。
03
技术规格
官方已经公开的产品级规格,大概是下面这些。
项目 |
Claude Fable 5 |
|---|---|
模型层级 |
Mythos-class 公共版 |
API ID |
claude-fable-5 |
Mythos 5 API ID |
claude-mythos-5 |
上下文窗口 |
1M tokens |
最大输出 |
128k tokens |
API 价格 |
|
thinking 模式 |
Adaptive thinking 永远开启 |
原始思维链 |
不返回 raw chain-of-thought |
图像输入 |
支持 |
数据保留 |
30 天,不支持 zero data retention |
公开形态 |
Fable 5 广泛可用,Mythos 5 受限开放 |
至于硬件参数,Anthropic 没有公开。
目前没有看到官方披露参数量、训练 tokens、GPU/TPU 型号、训练集群规模、MoE 结构、推理硬件、量化策略,也没有看到长上下文底层实现细节。
这倒是不奇怪。Anthropic 改进,确实彻头彻尾是一个闭源公司,他们好像从头到尾都没有发布过任何开源内容。
04
安全机制
Fable 5 这次最该单独拆的,是安全机制。
很多人把安全策略理解成模型不回答。但 Fable 5 更有意思的地方是 fallback。它没有简单把敏感请求全堵死,而是在某些场景里把请求转给 Claude Opus 4.8。
这就很有意思了,过去我们理解的模型安全,无非是模型吐出一句:“对不起,我无法回答这个问题。”
但 Fable 5 展现了极其成熟的工业级工程化思维。它引入了Capability Fallback(能力降级系统)。
优雅的 API 拒答:当触发分类器时,API 不会粗暴地抛出 HTTP 错误,而是成功返回200 OK,但在返回值里携带stop_reason: "refusal",并明确告知是哪一个分类器拦截的。
计费补偿机制:如果请求在生成任何输出前被拦截,完全不计费;如果中途发生 Fallback 降级,前半段按 Fable 5 计费,后半段按 Opus 4.8 计费。
彻底取消 ZDR(零数据保留):强行留存 30 天日志。官方直言不讳:很多滥用模式和高危意图,从单一的一两次对话是看不出来的,必须把 30 天的上下文连起来做全局审计。
这已经完全脱离了“在 Prompt 里加两句系统提示词”的小打小闹,而是把分类器、计费、日志、降级模型、可信计划全部熔炼进了一套完整的服务流。
在伴随发布的系统卡(System Card)里,Anthropic 对 Mythos 5 底座的几个高危评估非常耐人寻味:
网络安全:评为目前全球最强的 Cyber 模型,但仍判定为 Tier 1,未达到可自主执行网络攻击的 Tier 2 阈值;
生物化学:具备 CB-1 能力(非新型武器合成),未跨过 CB-2 门槛(新型武器)。但官方承认:它能显著 Uplift(提升)那些资源充足的威胁行为者的破坏能力;
AI 自动化研发:尚不能完全替代人类顶尖研究团队。
说白了,Anthropic 的态度是:“我知道这怪物已经具备明显的双重用途(Dual-use)危险性了,但我通过这套精妙的降级路由系统把它装进了笼子里,所以我敢拿出来卖了。”
05
测试结果
别只看单点炫技,要看长任务
Anthropic 官方发布页给了一张 benchmark 总表。
从官方 benchmark 总表看,Fable 5 在代码、数学推理、长上下文理解这几个主要维度上确实领先于 Opus 4.8,部分项目也超过了同期竞品。
分数非常的好看。
但跑分这种排行榜早就被跑烂了。每个新发的模型基本上都在这个榜单上秒天秒地,所以不太具有代表性。
06
总结
过去大家比拼的是谁的底座参数大、谁更有“智商”;而 Fable 5 证明,当模型能力强到一定程度后,怎么给它套上合适的“笼子”,让它既能安全合规地商业化,又不会因为踩到网络安全或生化红线被监管一刀切,已经变成了同样重要的技术活。
别把它单纯看作是一个“变聪明了的 Claude 4.5 或 5.0”。更准确地说,它是 Anthropic 在面对商业、合规、技术三路夹击时,交出的一套非常标准的“大模型工程化商业产品包”。接下来的大模型想要走IPO,大概率都要往这个方向走了。
上一篇:倒车影像变模糊了应该如何处理?