Qwen
共 2 篇

把 400B 大模型塞进 48G 内存:LLM in a Flash 背后的魔法
Apple 2023 年的一篇论文,让 4000 亿参数的模型跑在了普通 MacBook 上。核心技术 MoE + 量化,背后藏着一个关于’按需调用’的工程哲学。
March 24, 2026 · 2 min · 242 words · 梦兽编程

Rust让Qwen LLM模型效率再次炸裂,6倍速 tokenizer 黑科技。
bpe-qwen:Rust 重写 BPE 分词核心,面向 Qwen 系列模型,实测 6x–12x 提速且兼容 HuggingFace API,一行替换即可加速推理流水线。
October 16, 2025 · 2 min · 379 words · 梦兽编程
