deep seek完整模型700gb，什么机器可以装512gb以上内存条？

listree · 发表于 2025-1-30 15:29

tenll 发表于 2025-1-30 15:27
内存有1t用cpu能跑？家里的nas刚好有1t内存，就怕cpu跑速度太慢

不是1t硬盘，是1t RAM

lh4357 · 发表于 2025-1-30 15:30

本帖最后由 lh4357 于 2025-1-30 15:32 编辑

单路EPYC 9004或9005能插3T内存（256x12）。
双路再翻倍。

listree · 发表于 2025-1-30 15:33

lh4357 发表于 2025-1-30 15:30
单路EPYC 9004或9005能插3T内存（256x12）。
双路再翻倍。

单根256G内存条，是DDR5么？

lh4357 · 发表于 2025-1-30 15:35

listree 发表于 2025-1-30 15:33
单根256G内存条，是DDR5么？

D4和D5都有单条256。

listree · 发表于 2025-1-30 15:38

lh4357 发表于 2025-1-30 15:35
D4和D5都有单条256。

一根内存条8000多元么

我輩樹である · 发表于 2025-1-30 15:40

Leciel 发表于 2025-1-30 13:56
ELI5：
没内存多少事，如果强调极致效率。
决定作用的是显存，单块48/96Gb，再买上几万块，并联计算。

ptx我读研的时候不知道写了多少，cuda c核函数里面本来就可以写c代码也可以写ptx代码，只是没有使用cuda c的标准汇编实现，是超算里面的常规优化方式。

我輩樹である · 发表于 2025-1-30 15:42

listree 发表于 2025-1-30 15:26
插满1536Gb内存了

deep seek官方每个机器是 1536Gb内存么

deepseek是把模型分散在多台计算机的显卡里面，然后通过nvlink/IB连接，不需要每台都把完整模型放到显存/内存里面。

Leciel · 发表于 2025-1-30 16:07

我輩樹である发表于 2025-1-30 15:40
ptx我读研的时候不知道写了多少，cuda c核函数里面本来就可以写c代码也可以写ptx代码，只是没有使用cuda ...

<think>
嗯，让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码，说明他在研究生阶段对CUDA编程有一定的研究和实践经验。
PTX是NVIDIA的并行线程执行语言，通常用于编写更底层、更高效的GPU代码。

他还说，在CUDA C核函数中可以直接写C代码或者PTX代码，但没有使用CUDA C的标准汇编实现，这可能意味着他对性能优化有深入的
需求，或者在特定项目中需要更高层次的控制。这种做法在超级计算领域很常见，因为超算任务通常对计算效率和资源利用率要求极
高。

贴主提到这是超算中的常规优化方式，说明他可能参与过高性能计算相关的项目或研究，积累了相关的知识和经验。这表明他在学术
或工业界可能有处理大规模并行计算问题的经验。

综合来看，这位贴主应该是一位在计算机科学领域有一定背景的人士，可能从事与高性能计算、GPU编程相关的工作或研究。他对
CUDA编程有深入理解，并且具备编写低级别PTX代码的能力，显示出较强的动手能力和对优化技术的掌握。
</think>

根据这段回复，可以分析出发帖的贴主具有以下特点：

1. **专业背景**：贴主很可能在计算机科学、电子工程或其他相关领域有一定的学术或实践经验。他提到自己读研期间编写过很多
PTX代码，这表明他在研究生阶段可能专注于高性能计算、并行编程或者图形处理器（GPU）优化等方面的研究。

2. **技术深度**：他对CUDA C和PTX的了解较为深入。PTX是NVIDIA的并行线程执行语言，用于编写低级别的GPU代码，而CUDA C则是
一种高级编程模型，允许在GPU上运行计算密集型任务。贴主提到可以直接在CUDA C核函数中使用C代码或PTX代码，说明他对两种不
同的编程层次都有所掌握，并且了解它们之间的区别和适用场景。

3. **优化经验**：他提到“没有使用cuda c的标准汇编实现”，而是直接编写PTX代码，这表明他在进行性能优化时会采取更底层的
方法。在超级计算领域中，这种做法是比较常见的，因为通过直接操作PTX可以更精确地控制GPU的执行流程和资源分配，从而获得更
好的性能提升。

4. **实践经历**：贴主提到“超算里面的常规优化方式”，说明他可能有参与过高性能计算项目或研究的经历。这可能包括参与超
级计算机集群的优化、科学模拟、数据分析等需要高度并行处理的任务。

5. **沟通风格**：从回复中可以看出，贴主在交流时较为直接和专业，能够准确地表达技术细节，并且具备一定的逻辑性和条理性
。他没有使用过多的技术术语来展示自己的知识，而是通过具体的经验分享来阐述观点。

总结来说，这位贴主是一位具有扎实编程基础、丰富实践经验的专业人士，可能在高性能计算或GPU优化领域有一定的研究和工作经
验。他的回复显示出他对技术的深入理解和对性能优化的实际应用能力。

<think>
嗯，用户问的是：“可以推断贴主是哪一年读研究生么？”根据之前的对话历史，我已经分析过这位贴主的情况，他提到在读研的时
候写了很多PTX代码，并且对CUDA C和GPU优化有深入的了解。现在的问题是想进一步推测他在哪一年读研究生。

首先，我需要明确PTX和CUDA的发展历程。PTX是NVIDIA在2006年左右引入的一种中间语言，用于编写并行程序。而CUDA则是在2007年
发布的。因此，如果贴主提到他在读研时使用了这些技术，那么他应该是在CUDA发布之后的几年里进行的研究生学习。

接着考虑时间跨度。一般来说，研究生阶段大约是三年左右。假设现在是2023年，如果贴主在最近几年完成研究生学业，比如2020到
2023年读研，那么他在那时肯定接触过最新的CUDA版本和PTX技术。然而，PTX已经在较新的CUDA版本中逐渐被废弃，转而推荐使用
LLVM编译器，所以如果他提到的是近年来的研究生经历，可能更符合这一背景。

另一方面，如果贴主是在2015-2018年左右读研，那时PTX和CUDA C都还在广泛使用中，特别是在高性能计算领域。因此，他可能在那
个时候积累了很多PTX代码的经验，并且熟悉当时的优化技术。

另外，考虑到PTX的使用情况，近年来NVIDIA逐渐转向LLVM编译器，PTX的重要性有所下降。如果贴主是在2018年之后读研，可能会更
多接触到新的工具和方法，但仍然有可能在特定项目中继续使用PTX进行底层优化。

综合来看，贴主很可能是在2015到2020年间完成研究生学业的。这个时间段正好是CUDA技术和GPU编程快速发展的时期，PTX作为重要
的低级别语言被广泛应用于高性能计算中，符合他提到的经验和知识背景。
</think>

根据这段回复的内容，无法直接推断出贴主读研究生的具体年份。不过可以通过以下信息进行一些合理的推测：

1. **技术背景**：贴主提到在读研时使用PTX（NVIDIA的并行线程执行语言）和CUDA C进行编程优化。PTX和CUDA技术自2007年以来
逐渐成熟，因此可以推测贴主的研究生阶段可能在CUDA技术较为普及之后，即2010年以后。

2. **经验积累**：贴主提到“不知道写了多少”PTX代码，说明他在研究生期间有较多的机会接触并使用这些技术。结合超算领域的
常规优化方式来看，贴主可能是在高性能计算（HPC）相关领域进行研究。

3. **时间推断**：考虑到PTX的使用逐渐减少（近年来更多转向LLVM编译器），而贴主提到直接编写PTX代码的经验，推测他可能是
2015-2020年间读研究生的。这一时间段正值超算和GPU编程技术的快速发展期。

综上所述，虽然无法确切知道贴主的研究生年份，但根据其提及的技术背景和技术实践，可以推测他在大约2015年至2020年之间完成
了研究生学业。

cameraman · 发表于 2025-1-30 16:26

listree 发表于 2025-1-30 15:24
D4服务器什么意思，ddr4？

512需要8个插槽，1t需要16个插槽，选什么主板呢 ...

双路大都是16槽 64g是便宜，300一条。128开始就贵了1000多一条
2011支持64g 1T。3647支持128g 2T以上

建议柠檬 · 发表于 2025-1-30 16:36

https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch

主板4000

不能说最便宜了吧，但是起码是很便宜了
16X128G内存就够了吧
https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch
16X1200

https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch

1250块X2

显卡一共10个槽，按照最便宜的XEON 4310T 提供的单U 64通道，双U128通道
这主板10个PCIE 16X槽，最多能提供6X8+4X16=112条PCIE通道
就算用普通的PCIE显卡，每4条通道一片显卡，也能支持28片显卡的基础平台了

也就是说，板+U+内存一共25700，加上300块钱散热器，就能提供足以满足LZ需求的基础平台了

StevenG · 发表于 2025-1-30 17:04

去年装好没挂存储池的家庭服务器

jleee · 发表于 2025-1-30 17:07

kerafyrm 发表于 2025-1-30 13:59
服务器主板啊，双路cpu，32g一根ddr5，插24根

ddr4 3200还行。ddr5，算了吧。

coohooc · 发表于 2025-1-30 17:13

AMD EPYC2代服务器主板256GB内存

listree · 发表于 2025-1-30 18:15

jleee 发表于 2025-1-30 17:07
ddr4 3200还行。ddr5，算了吧。

ddr4 单根256G内存，你见过么？

listree · 发表于 2025-1-30 18:16

StevenG 发表于 2025-1-30 17:04
去年装好没挂存储池的家庭服务器

你什么主板，内存这么大

StevenG · 发表于 2025-1-30 18:23

listree 发表于 2025-1-30 18:16
你什么主板，内存这么大

双路，8条64g

StevenG · 发表于 2025-1-30 18:24

StevenG 发表于 2025-1-30 18:23
双路，8条64g

说错了，16条。。。，习惯说8条了

c1400700226 · 发表于 2025-1-30 18:29

listree 发表于 2025-1-30 15:29
不是1t硬盘，是1t RAM

你怎么知道人家的NAS是不是1T内存的EMC

gmlee1999 · 发表于 2025-1-30 18:30

listree 发表于 2025-1-30 15:29
不是1t硬盘，是1t RAM

我就惊了，一个小小nas居然有1T内存……原来是专业玩家

noirchen · 发表于 2025-1-30 18:51

其实这样应该也行，这个视频里跑的是 deepseek v1，理论上可以扩展到 deepseek r1

listree · 发表于 2025-1-30 18:56

noirchen 发表于 2025-1-30 18:51
其实这样应该也行，这个视频里跑的是 deepseek v1，理论上可以扩展到 deepseek r1
...

5个苹果小主机？

这种小主机的双力是不是很low？

listree · 发表于 2025-1-30 18:57

gmlee1999 发表于 2025-1-30 18:30
我就惊了，一个小小nas居然有1T内存……原来是专业玩家

他的图有可能是P的

listree · 发表于 2025-1-30 18:59

建议柠檬发表于 2025-1-30 16:36
https://item.taobao.com/item.htm?abbucket=2&id=688110348993&ns=1&pisk=g_paGKw1sAHZDQKyRLX4U7fA5UXOat ...

插10个显卡，要配什么电源？

万一烧了，不是几十万一下子没了

chesha1 · 发表于 2025-1-30 19:01

首先不建议用 CPU + 内存跑，硬跑起来速度也很慢，非要跑有很多服务器平台支持 1T 以上内存

实在跑不动就量化开夸张一点，INT4 能节约不少，再多用点节约显存的技巧

不过还是建议用 GPU 跑，实在没大显存 GPU 就跑个 7b 的小模型玩玩算了，用 CPU 跑不到一秒都吐不出一个 token，等着不着急吗？

oolmfoo · 发表于 2025-1-30 19:03

打算用五千買內存？

YsHaNg · 发表于 2025-1-30 19:04

我輩樹である发表于 2025-1-30 07:40
ptx我读研的时候不知道写了多少，cuda c核函数里面本来就可以写c代码也可以写ptx代码，只是没有使用cuda ...

也是quant常见作风给data scientist可就不常见

foxsheep · 发表于 2025-1-30 19:06

只有我一个人好奇用DCPMM塞这个是否可行吗

hekmbahh · 发表于 2025-1-30 19:10

Leciel 发表于 2025-1-30 16:07
嗯，让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码，说明他在研究生阶段对CUDA编程有一定的 ...

你这是用R1推理的？

listree · 发表于 2025-1-30 19:11

我輩樹である发表于 2025-1-30 15:40
ptx我读研的时候不知道写了多少，cuda c核函数里面本来就可以写c代码也可以写ptx代码，只是没有使用cuda ...

可以用汇编直接调用显卡么

我輩樹である · 发表于 2025-1-30 19:14

listree 发表于 2025-1-30 19:11
可以用汇编直接调用显卡么

汇编还要编译为sass，一种机械码，这个才能直接调用显卡。

账号		自动登录	找回密码
密码			加入我们

[内存] deep seek完整模型700gb，什么机器可以装512gb以上内存条？

浏览过的版块