本地大模型

把 400B 大模型塞进 48G 内存：LLM in a Flash 背后的魔法

Apple 2023 年的一篇论文，让 4000 亿参数的模型跑在了普通 MacBook 上。核心技术 MoE + 量化，背后藏着一个关于’按需调用’的工程哲学。

March 24, 2026 · 2 min · 242 words · 梦兽编程

oMLX 专为 Apple Silicon 打造，通过 MLX 框架、SSD KV 缓存和连续批处理，将长上下文场景下的 TTFT 从 90 秒降到 1-3 秒，全面超越 Ollama。

March 23, 2026 · 2 min · 378 words · 梦兽编程