综合资讯 | 梦兽编程

Tokencake：多智能体KV缓存调度，把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake，多智能体 KV Cache 框架，用时间+空间双调度、CPU 缓冲与渐进预留，在外部函数调用场景让端到端延迟相较 vLLM 降低 47%，GPU 内存利用率提升近 17%。

October 30, 2025 · 2 min · 233 words · 梦兽编程

Anthropic 推出 Claude 4.5 Sonnet，宣称全球最强编码能力，基准测试得分 77.2%，长时运行可达 30 小时，同步发布 Claude Code 升级和全新 Agent SDK，并对比包括 Gemini 系列在内的多家主流模型。

September 30, 2025 · 1 min · 199 words · September 30, 2025 · 梦兽编程

深度体验Claude Code AI编程助手，从本地运行到自然语言交互，看看这个基于Claude 4系列的工具如何改变开发者的日常工作，并附带 Gemini 3 + Claude Code 本地开发方案与实战教程链接。

September 30, 2025 · 1 min · 121 words · September 30, 2025 · 梦兽编程

DeepSeek-V3.2-Exp重磅发布，DSA稀疏注意力技术突破，推理速度提升2-3倍，内存减少30-40%，API价格再降50%以上

January 29, 2025 · 1 min · 46 words · January 29, 2025 · 梦兽编程