Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下
北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。
共 4 篇
北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。
Anthropic 推出 Claude 4.5 Sonnet,宣称全球最强编码能力,基准测试得分 77.2%,长时运行可达 30 小时,同步发布 Claude Code 升级和全新 Agent SDK,并对比包括 Gemini 系列在内的多家主流模型。
深度体验Claude Code AI编程助手,从本地运行到自然语言交互,看看这个基于Claude 4系列的工具如何改变开发者的日常工作,并附带 Gemini 3 + Claude Code 本地开发方案与实战教程链接。
DeepSeek-V3.2-Exp重磅发布,DSA稀疏注意力技术突破,推理速度提升2-3倍,内存减少30-40%,API价格再降50%以上