MoE
共 2 篇

把 400B 大模型塞进 48G 内存:LLM in a Flash 背后的魔法
Apple 2023 年的一篇论文,让 4000 亿参数的模型跑在了普通 MacBook 上。核心技术 MoE + 量化,背后藏着一个关于’按需调用’的工程哲学。
March 24, 2026 · 2 min · 242 words · 梦兽编程
247GB 就能把 Kimi K2 Thinking 搬回家:Dynamic 1-bit GGUF 实操笔记
用 Unsloth 发布的动态 1-bit GGUF 量化版,让 1T 级 Kimi K2 Thinking 在消费级硬件上跑起来,含安装、下载、运行、部署和避坑指南。
November 11, 2025 · 2 min · 381 words · 梦兽编程
