5万元组装一台大模型主机 纯CPU推理基本流畅运行满血版 DeepSeek-R1 Q8量化(665GB) 每秒输出约10个字
纯CPU 推理方案中:内存带宽会直接影响生成速度,DDR5高频内存不建议换为DDR4、DDR3低频整机方案。SSD 读写速度只影响模型加载到内存或显存速度。CPU 核心数影响预填充速度,12 个内存通道必须插满,这样才能获得 CPU 所支持的全部带宽, 路 64GB 共 768GB 总容量才能装下 Q8 量化后DeepSeek满血模型,CPU 使用风冷散热器即可。长城 1000DA 金牌巨龙100
5万元组装一台大模型主机
纯CPU推理基本流畅运行满血版 DeepSeek-R1
Q8量化(665GB)
每秒输出约10个字
主板 |
技嘉MZ33-AR1(E-ATX主板) |
6000元 |
CPU |
AMD EPYC 9135 |
8000元 |
内存 |
DDR5 RDIMM 5600MHz 64GB x 12 (768GB) |
29000元 |
固态硬盘 |
光威(Gloway)M.2接口1TB弈二代 |
400元 |
电源 |
长城 1000DA 金牌巨龙1000W电竞版 |
600元 |
机箱 |
先马 黑洞 PRO 支持E-ATX主板 |
300元 |
显卡 |
RTX 2080Ti 22G x2 |
6000元 |
Tokens输出速度参考
DeepSeek |
R1 70b Q4 |
R1 671b Q8 |
纯GPU推理 |
10 token/s |
- |
纯CPU推理 |
- |
7 token/s |
纯CPU 推理方案中:内存带宽会直接影响生成速度,DDR5高频内存不建议换为DDR4、DDR3低频整机方案。SSD 读写速度只影响模型加载到内存或显存速度。CPU 核心数影响预填充速度,12 个内存通道必须插满,这样才能获得 CPU 所支持的全部带宽, 路 64GB 共 768GB 总容量才能装下 Q8 量化后DeepSeek满血模型,CPU 使用风冷散热器即可。
更多推荐
所有评论(0)