Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。

October 30, 2025 · 梦兽编程
高性价比 AI 套装 每月不到一杯咖啡,效率翻倍 →