Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。

October 30, 2025 · 梦兽编程

Claude 4.5 Sonnet 发布,号称全球最强编码模型

Anthropic 推出 Claude 4.5 Sonnet,宣称全球最强编码能力,基准测试得分 77.2%,长时运行可达 30 小时,同步发布 Claude Code 升级和全新 Agent SDK,并对比包括 Gemini 系列在内的多家主流模型。

September 30, 2025 · 梦兽编程

Claude Code:这个AI编程助手,像给代码请了个24小时贴身管家

深度体验Claude Code AI编程助手,从本地运行到自然语言交互,看看这个基于Claude 4系列的工具如何改变开发者的日常工作,并附带 Gemini 3 + Claude Code 本地开发方案与实战教程链接。

September 30, 2025 · 梦兽编程

DeepSeek突发大招:V3.2-Exp稀疏注意力机制登场,API价格再砍一半

DeepSeek-V3.2-Exp重磅发布,DSA稀疏注意力技术突破,推理速度提升2-3倍,内存减少30-40%,API价格再降50%以上

January 29, 2025 · 梦兽编程
高性价比 AI 套装 每月不到一杯咖啡,效率翻倍 →