5万元组装一台大模型主机纯CPU推理基本流畅运行满血版 DeepSeek-R1 Q8量化（665GB）每秒输出约10个字

纯CPU 推理方案中：内存带宽会直接影响生成速度，DDR5高频内存不建议换为DDR4、DDR3低频整机方案。SSD 读写速度只影响模型加载到内存或显存速度。CPU 核心数影响预填充速度，12 个内存通道必须插满，这样才能获得 CPU 所支持的全部带宽，路 64GB 共 768GB 总容量才能装下 Q8 量化后DeepSeek满血模型，CPU 使用风冷散热器即可。长城 1000DA 金牌巨龙100

金海大道

343人浏览 · 2025-03-19 17:05:07

金海大道 · 2025-03-19 17:05:07 发布

5万元组装一台大模型主机

纯CPU推理基本流畅运行满血版 DeepSeek-R1

Q8量化（665GB）

每秒输出约10个字

主板	技嘉MZ33-AR1（E-ATX主板）	6000元
CPU	AMD EPYC 9135	8000元
内存	DDR5 RDIMM 5600MHz 64GB x 12 （768GB）	29000元
固态硬盘	光威（Gloway）M.2接口1TB弈二代	400元
电源	长城 1000DA 金牌巨龙1000W电竞版	600元
机箱	先马黑洞 PRO 支持E-ATX主板	300元
显卡	RTX 2080Ti 22G x2	6000元

Tokens输出速度参考

DeepSeek	R1 70b Q4	R1 671b Q8
纯GPU推理	10 token/s	-
纯CPU推理	-	7 token/s

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】