Tokencake:多智能体KV缓存调度,把延迟打到 vLLM 一半以下

北航、北大、阿里提出 Tokencake,多智能体 KV Cache 框架,用时间+空间双调度、CPU 缓冲与渐进预留,在外部函数调用场景让端到端延迟相较 vLLM 降低 47%,GPU 内存利用率提升近 17%。

October 30, 2025 · 梦兽编程

Agno-Go:Go语言写AI Agent,比Python快16倍是什么体验?

用Go语言重写AI Agent框架,性能提升16倍,180纳秒启动一个智能体,内存占用只要1.2KB,这就是Agno-Go带来的极致体验

October 4, 2025 · 梦兽编程
高性价比 AI 套装 每月不到一杯咖啡,效率翻倍 →