综合资讯
共 4 篇
Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下
北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。
October 30, 2025 · 2 min · 233 words · 梦兽编程
Claude 4.5 Sonnet 发布,号称全球最强编码模型
Anthropic 推出 Claude 4.5 Sonnet,宣称全球最强编码能力,基准测试得分 77.2%,长时运行可达 30 小时,同步发布 Claude Code 升级和全新 Agent SDK,并对比包括 Gemini 系列在内的多家主流模型。
September 30, 2025 · 1 min · 199 words · September 30, 2025 · 梦兽编程
Claude Code:这个AI编程助手,像给代码请了个24小时贴身管家
深度体验Claude Code AI编程助手,从本地运行到自然语言交互,看看这个基于Claude 4系列的工具如何改变开发者的日常工作,并附带 Gemini 3 + Claude Code 本地开发方案与实战教程链接。
September 30, 2025 · 1 min · 121 words · September 30, 2025 · 梦兽编程
DeepSeek突发大招:V3.2-Exp稀疏注意力机制登场,API价格再砍一半
DeepSeek-V3.2-Exp重磅发布,DSA稀疏注意力技术突破,推理速度提升2-3倍,内存减少30-40%,API价格再降50%以上
January 29, 2025 · 1 min · 46 words · January 29, 2025 · 梦兽编程