推理加速 | 梦兽编程

Tokencake：多智能体KV缓存调度，把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake，多智能体 KV Cache 框架，用时间+空间双调度、CPU 缓冲与渐进预留，在外部函数调用场景让端到端延迟相较 vLLM 降低 47%，GPU 内存利用率提升近 17%。

October 30, 2025 · 2 min · 233 words · 梦兽编程

高性价比 AI 套装 每月不到一杯咖啡，效率翻倍 →