多智能体 | 梦兽编程

Tokencake：多智能体KV缓存调度，把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake，多智能体 KV Cache 框架，用时间+空间双调度、CPU 缓冲与渐进预留，在外部函数调用场景让端到端延迟相较 vLLM 降低 47%，GPU 内存利用率提升近 17%。

October 30, 2025 · 2 min · 233 words · 梦兽编程

用Go语言重写AI Agent框架，性能提升16倍，180纳秒启动一个智能体，内存占用只要1.2KB，这就是Agno-Go带来的极致体验

October 4, 2025 · 1 min · 47 words · 梦兽编程