玩了一天Claude-Fable,代码能力学术水平真的炸裂了。
大家好,这里是AIWritePaper官方账号

A\今天又发布新模型了,也就是Claude 5 Fable。这才不到两周。。相比与4.7与4.8的能力提升不大,这次真的甩了个炸弹。别的不说。。光看这张图就知道叒SOTA了。

今天也破天荒的直接指挥接入不同模型的龙虾实例各种采集Fable资讯学习。


核心看点:
1.SWE-Bench Pro 80.3%,是GPT-5.5的6倍;
2.价格:$10/MTok input,$50/MTok output
3.安全机制:敏感查询会 fallback 到 Opus 4.8
再来看两张artificialanalysis给出的几个大家关心指标图。。
速度不快但是最聪明!

贼贵!
10刀的百万输入/50刀的百万输出。。
12.5刀的百万缓存构建/命中缓存1刀的百万输出。。如果命中了缓存,那还是很香的。

这几个月围绕Mythos的讨论很大一部分都集中在它对软件安全的影响上,不过我这次测试了与安全无关。。原因也很简单:Fable周围的安全护栏基本上让它没法真正用于网络安全场景。我的结论是,它相对于我此前用过的任何模型,都确实向前跨了一大步。
Fable到底有多强。很多模型我都在用。。GPT-5.5、Deepseek V4、GLM,甚至claude自家的模型也是我平时工作科研的主力模型。但是这个Fable基本都大幅超过了我用过的其他公开模型。它能处理很多类型的问题,而且会产出一些让人很难不愣一下的结果。脑补一下修仙小说不知真相的本门长老听见弟子说,XXX宗门的宗主被X师兄斩杀了那种表情。
Fable可以连续改代码几个小时,按照多页需求以及规范的MD文档一步步执行。

后面我会讲几个更复杂、也更严肃的用例,不过哪怕只看普通任务,也能看出它整体上的进步。麻烦的是如果想在一篇文章里把这些讲清楚,很多最惊人的结果其实只会让一小部分读者感兴趣。比如我只给了一个提示词和一次反馈,它就做出了我见过的、由AI生成的最复杂的学术社会科学论文。


全文9500字并且很快就完成了,同时我开启了自己一直使用的AIGC率评估插件,也通过了AIGC率评估。

为了找一个更容易理解、也更有趣的例子,我用Fable做了一份地图。以前没有任何模型能把这类地图做得哪怕算是半可用,因为这件事需要研究成千上万个潜在行程距离,还涉及大量细小的判断和取舍。我决定用Claude Fable试一试,于是给了它这样一段提示词:
我希望你制作一张经过充分研究、设计漂亮的等时线地图。它可以让我选择不同城市,并基于真实数据看到真实的等时线。我希望设计要有独特性。你需要考虑机场,包括往返机场的时间,也要考虑火车、步行和驾车。数据不需要是实时的,但应该基于你的研究和数据,尽量真实。你可以先从几个城市开始,但最好更通用一些;这应该是一个全新的项目。
随后它建议按照那张原始地图的风格来做。我同意了,于是它开始工作。
值得花一点时间看看claude自己经历的那场持续数小时的构建过程转录稿,因为里面能看到一些不寻常的东西。开头Claude启动了多个其他模型,我猜大多是成本更低的 Claude Sonnet,帮它研究旅行时间。它一路找回了2200多条具体航班信息,从TGV到新干线的铁路时刻表,以及来自多篇学术论文的各国道路速度数据。同时,那些agent还在跑,它自己已经开始写代码。之后它又启动了更多agent和测试来验证代码,并且一路记录自己的进展。
做出来的成品是一张完全可用、复杂程度相当高的地图,外观很像1881年的原版。但这并不意味着它完美。我注意到很多偏远地点,比如格陵兰岛,里面只有旅行时间估算,并没有精确数字,于是我让Fable修正,并加了一句明确要求:请实际获取前往偏远机场和地点的旅行时间。这个时候Claude启动了一套工作流:几组带有对抗关系的agent分别做研究,并互相检查结果。它弄清楚了船多久开往太平洋上的皮特凯恩岛,也弄清楚了怎么从渥太华前往格里斯峡湾。与此同时它在很短时间内消耗了巨量token,这一点后面还会再说。余额警告。。
结果很让人信服。后来我又按照自己感兴趣的方向追问了几次,包括让它尝试其他可视化方式等等。我建议你花几分钟点进去看看结果,图表底部还能读到它的方法和来源。
现在兴起的Vibe Coding体验像是和巫师共事
你念出咒语,某些事情就发生了。到了Fable这里,这个咒语已经强到让我不太确定自己还是不是那个巫师。我更像是一个出资委托的人。我描述自己想要什么,为它付费,然后评判结果。真正的召唤发生在我看不到的地方,藏在数百个细小选择里,而那些选择没有一个需要我投票。工作已经从过程转向结果。我不再亲自掌舵;我是在下委托。
这种被放到一边的感觉,也许只是暂时的,只是因为界面还没有跟上模型能力。也许以后我们会有更好的窗口,看清这些模型正在做什么,也会有更好的办法在中途引导它们。
可是反过来也可能是真的:模型越有能力,人类能真正参与的部分就越少,而黑箱正是这种力量的代价。
我怀疑后者更可能成为真实方向。
这并不是通常意义上的失控。
我仍然可以引导Fable,而且它遵循指令的能力非常强:指令越有野心,结果反而越好。但引导已经不等于亲自做。我给模型交代任务,它启动自己的agent去研究、写作、互相检查,交回来的就是成品。
过去出资人委托的是一位艺术家。Fable更像是一整个工作室,而我是那个只在最终作品上签字的客户,甚至从未踏进过工作室的地板。
更多推荐
所有评论(0)