Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下
北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。
共 2 篇
北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。
用Go语言重写AI Agent框架,性能提升16倍,180纳秒启动一个智能体,内存占用只要1.2KB,这就是Agno-Go带来的极致体验