Anthropic 又放大招了,这次直接推出了 Claude 4.5 Sonnet,还大胆宣称这是目前全球最强的编码模型。不仅如此,这次发布简直就是「全家桶」式的更新——Claude Code 升级了,还带来了全新的 Claude Agent SDK、VS Code 扩展插件,以及一堆新特性。

Sonnet 4.5 到底有多强?
先说说这次的主角 Claude Sonnet 4.5。Anthropic 表示,这个新版本在执行指令和重构代码方面变得更稳更可靠了。怎么个稳法?数据说话。
在 SWE-Bench Verified 这个业界公认的代码基准测试中,Sonnet 4.5 拿下了 77.2% 的高分,并行执行模式下甚至能冲到 82%。这是什么概念?就像考试满分 100,人家能考 77 到 82 分,妥妥的优等生水平。
更有意思的是,在某些特定场景下,比如处理金融服务行业的问题时,Sonnet 4.5 的表现甚至超过了自家老大哥 Opus 4.1。这就像家里的老二突然在某个领域超越了老大,确实有点出人意料。
在 OSWorld 基准测试中,Sonnet 4.5 更是一骑绝尘,成功率达到 61.4%。对比一下:上一代 Sonnet 4 只有 43.9%,自家旗舰 Opus 4.1 也就 44% 左右。这个进步可以说是飞跃式的。
能跑 30 小时不累?
对于那些需要长时间运行的复杂任务,Sonnet 4.5 现在可以连续干 30 个小时,远超 Opus 4 的 7 小时。这就好比一个马拉松选手,原来只能跑 7 公里就累了,现在一口气能跑 30 公里还保持状态。
Anthropic 官方说,Sonnet 4.5 在整个运行过程中都能"保持专注和高性能"。这话听起来挺玄乎,不过具体靠不靠谱,还得看用户实际用起来怎么样。
和其他模型比呢?
在大多数编码类基准测试中,Sonnet 4.5 都能打败 GPT-4o 和 Gemini 2.5 Pro 这些主流对手。不过也不是所有方面都占优势——在视觉推理类任务上,Anthropic 的模型还是稍微弱一点,没能扳回一局。

新功能和定价
这次更新带来了不少新功能,很多原本是 Claude Code 专属的高级能力现在都下放了,比如虚拟机访问、内存管理、更强的上下文控制,还有多智能体支持等等。
价格方面,Sonnet 4.5 和前代 Sonnet 4 保持一致:每百万输入 Token 3 美元,输出 Token 15 美元。
还有个挺有意思的细节:Anthropic 透露,Sonnet 4.5 是他们第一款能够完全重建 Claude.ai 网站应用的模型。整个过程耗时大约 5.5 小时,调用了超过 3000 次工具。这就像让 AI 自己给自己盖个房子,确实挺酷的。
Claude Code 更新了啥?
Claude Code 这个编码助手自然也升级到了最新的 Sonnet 4.5 模型。除了底层模型的提升,还有几个值得关注的新功能。
首先是推出了原生的 Visual Studio Code 扩展插件。开发者可以通过内联差异对比(inline diffs)实时看到 Claude Code 改了啥。这就像在文档协作时能看到别人改了哪些地方,一目了然。
在终端里,Claude Code 的状态展示也更清楚了,还新增了可搜索的提示词历史记录。想找之前问过的问题?直接搜就行。
另一个实用的新功能是"检查点"机制。如果 Claude Code 跑偏了,开发者可以更方便地回滚到之前的状态。就像玩游戏存档一样,出问题了可以读档重来。
全新的 Claude Agent SDK
如果你想基于 Claude Code 的底层能力打造自己的 AI 智能体,那这次推出的 Claude Agent SDK 就值得好好看看了。
这个 SDK 采用了和 Claude Code 相同的底层架构,但给开发者留了更大的自由度,可以构建各种类型的智能体。它提供了智能体编排、内存管理、上下文控制、工具调用、权限管理等一整套核心功能。
从 API 层面来说,开发者能拿到一个内存工具,帮助智能体在执行长周期任务时保持上下文连贯。此外,Anthropic 还加入了自动上下文管理功能,让 Claude 能根据需要动态调整上下文窗口,把过时的数据清理掉。
这就像给 AI 配了一个智能笔记本,既能记住重要的事情,又能自动清理不重要的内容,让大脑保持清爽。
写在最后
Claude 4.5 Sonnet 的发布,标志着 Anthropic 在编码 AI 领域的又一次发力。从基准测试数据来看,这次确实有不少实打实的提升。但说到底,一个模型好不好用,还得看它在实际项目中的表现。
对开发者来说,现在可选的 AI 编码工具越来越多,竞争也越来越激烈。这对用户来说当然是好事——工具更强了,价格没涨,选择更多了。
至于 Sonnet 4.5 能不能坐稳"全球最强编码模型"的位置,还得交给时间和用户来验证。不过从目前的数据和功能来看,它确实值得开发者们试一试。