玩了一天Claude-Fable，代码能力学术水平真的炸裂了。

AIWritePaper官方账号

221人浏览 · 2026-06-15 23:01:12

AIWritePaper官方账号 · 2026-06-15 23:01:12 发布

大家好，这里是AIWritePaper官方账号

A\今天又发布新模型了，也就是Claude 5 Fable。这才不到两周。。相比与4.7与4.8的能力提升不大，这次真的甩了个炸弹。别的不说。。光看这张图就知道叒SOTA了。

今天也破天荒的直接指挥接入不同模型的龙虾实例各种采集Fable资讯学习。

核心看点：

1.SWE-Bench Pro 80.3%，是GPT-5.5的6倍；

2.价格：$10/MTok input，$50/MTok output

3.安全机制：敏感查询会 fallback 到 Opus 4.8

再来看两张artificialanalysis给出的几个大家关心指标图。。

速度不快但是最聪明！

贼贵！

10刀的百万输入/50刀的百万输出。。

12.5刀的百万缓存构建/命中缓存1刀的百万输出。。如果命中了缓存，那还是很香的。

这几个月围绕Mythos的讨论很大一部分都集中在它对软件安全的影响上，不过我这次测试了与安全无关。。原因也很简单：Fable周围的安全护栏基本上让它没法真正用于网络安全场景。我的结论是，它相对于我此前用过的任何模型，都确实向前跨了一大步。

Fable到底有多强。很多模型我都在用。。GPT-5.5、Deepseek V4、GLM，甚至claude自家的模型也是我平时工作科研的主力模型。但是这个Fable基本都大幅超过了我用过的其他公开模型。它能处理很多类型的问题，而且会产出一些让人很难不愣一下的结果。脑补一下修仙小说不知真相的本门长老听见弟子说，XXX宗门的宗主被X师兄斩杀了那种表情。

Fable可以连续改代码几个小时，按照多页需求以及规范的MD文档一步步执行。

后面我会讲几个更复杂、也更严肃的用例，不过哪怕只看普通任务，也能看出它整体上的进步。麻烦的是如果想在一篇文章里把这些讲清楚，很多最惊人的结果其实只会让一小部分读者感兴趣。比如我只给了一个提示词和一次反馈，它就做出了我见过的、由AI生成的最复杂的学术社会科学论文。

全文9500字并且很快就完成了，同时我开启了自己一直使用的AIGC率评估插件，也通过了AIGC率评估。

为了找一个更容易理解、也更有趣的例子，我用Fable做了一份地图。以前没有任何模型能把这类地图做得哪怕算是半可用，因为这件事需要研究成千上万个潜在行程距离，还涉及大量细小的判断和取舍。我决定用Claude Fable试一试，于是给了它这样一段提示词：

我希望你制作一张经过充分研究、设计漂亮的等时线地图。它可以让我选择不同城市，并基于真实数据看到真实的等时线。我希望设计要有独特性。你需要考虑机场，包括往返机场的时间，也要考虑火车、步行和驾车。数据不需要是实时的，但应该基于你的研究和数据，尽量真实。你可以先从几个城市开始，但最好更通用一些；这应该是一个全新的项目。

随后它建议按照那张原始地图的风格来做。我同意了，于是它开始工作。

值得花一点时间看看claude自己经历的那场持续数小时的构建过程转录稿，因为里面能看到一些不寻常的东西。开头Claude启动了多个其他模型，我猜大多是成本更低的 Claude Sonnet，帮它研究旅行时间。它一路找回了2200多条具体航班信息，从TGV到新干线的铁路时刻表，以及来自多篇学术论文的各国道路速度数据。同时，那些agent还在跑，它自己已经开始写代码。之后它又启动了更多agent和测试来验证代码，并且一路记录自己的进展。

做出来的成品是一张完全可用、复杂程度相当高的地图，外观很像1881年的原版。但这并不意味着它完美。我注意到很多偏远地点，比如格陵兰岛，里面只有旅行时间估算，并没有精确数字，于是我让Fable修正，并加了一句明确要求：请实际获取前往偏远机场和地点的旅行时间。这个时候Claude启动了一套工作流：几组带有对抗关系的agent分别做研究，并互相检查结果。它弄清楚了船多久开往太平洋上的皮特凯恩岛，也弄清楚了怎么从渥太华前往格里斯峡湾。与此同时它在很短时间内消耗了巨量token，这一点后面还会再说。余额警告。。

结果很让人信服。后来我又按照自己感兴趣的方向追问了几次，包括让它尝试其他可视化方式等等。我建议你花几分钟点进去看看结果，图表底部还能读到它的方法和来源。

现在兴起的Vibe Coding体验像是和巫师共事

你念出咒语，某些事情就发生了。到了Fable这里，这个咒语已经强到让我不太确定自己还是不是那个巫师。我更像是一个出资委托的人。我描述自己想要什么，为它付费，然后评判结果。真正的召唤发生在我看不到的地方，藏在数百个细小选择里，而那些选择没有一个需要我投票。工作已经从过程转向结果。我不再亲自掌舵；我是在下委托。

这种被放到一边的感觉，也许只是暂时的，只是因为界面还没有跟上模型能力。也许以后我们会有更好的窗口，看清这些模型正在做什么，也会有更好的办法在中途引导它们。

可是反过来也可能是真的：模型越有能力，人类能真正参与的部分就越少，而黑箱正是这种力量的代价。

我怀疑后者更可能成为真实方向。

这并不是通常意义上的失控。

我仍然可以引导Fable，而且它遵循指令的能力非常强：指令越有野心，结果反而越好。但引导已经不等于亲自做。我给模型交代任务，它启动自己的agent去研究、写作、互相检查，交回来的就是成品。

过去出资人委托的是一位艺术家。Fable更像是一整个工作室，而我是那个只在最终作品上签字的客户，甚至从未踏进过工作室的地板。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

MCP 协议实战（下）：背后的机制与面试指南

MCP 协议解决了一个朴素的问题：大模型再聪明，没有手就干不了活。它不是什么高深的技术，只是一个标准化的协议。但正是这个标准化，让 AI 应用开发从一个"手工作坊"变成了"工业流水线"——写完一个 MCP Server，所有模型都能用。2026 年，MCP 已经从早期的概念验证进入了大规模落地阶段。现在学习 MCP，不算早，也绝不算晚，刚好是最合适的时机。系列文章MCP 协议实战（上）：什么是 M

MCP技术社区

AI Agent 的插件化工具系统：动态注册、热加载与安全沙箱

*** 标记一个方法为 Agent 可调用的工具。* 框架会自动提取注解信息生成 function calling schema。/** 工具名称，LLM 通过此名称调用 */ String name();/** 工具描述，会出现在 system prompt 的 tool description 中 */ String description();/** 调用示例，帮助 LLM 理解如何使用 *