找回密码
 加入我们
搜索
      
楼主: listree

[内存] deep seek完整模型700gb,什么机器可以装512gb以上内存条?

[复制链接]
 楼主| 发表于 2025-1-30 15:29 | 显示全部楼层
tenll 发表于 2025-1-30 15:27
内存有1t用cpu能跑?家里的nas刚好有1t内存,就怕cpu跑速度太慢



不是1t硬盘,是1t RAM
发表于 2025-1-30 15:30 | 显示全部楼层
本帖最后由 lh4357 于 2025-1-30 15:32 编辑

单路EPYC 9004或9005能插3T内存(256x12)。
双路再翻倍。
 楼主| 发表于 2025-1-30 15:33 | 显示全部楼层
lh4357 发表于 2025-1-30 15:30
单路EPYC 9004或9005能插3T内存(256x12)。
双路再翻倍。




单根256G内存条,是DDR5么?
发表于 2025-1-30 15:35 | 显示全部楼层
listree 发表于 2025-1-30 15:33
单根256G内存条,是DDR5么?

D4和D5都有单条256。
 楼主| 发表于 2025-1-30 15:38 | 显示全部楼层
lh4357 发表于 2025-1-30 15:35
D4和D5都有单条256。

一根内存条8000多元么
发表于 2025-1-30 15:40 | 显示全部楼层
Leciel 发表于 2025-1-30 13:56
ELI5:
没内存多少事,如果强调极致效率。
决定作用的是显存,单块48/96Gb,再买上几万块,并联计算。

ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda c的标准汇编实现,是超算里面的常规优化方式。
发表于 2025-1-30 15:42 | 显示全部楼层
listree 发表于 2025-1-30 15:26
插满1536Gb内存了

deep seek官方每个机器是 1536Gb内存么


deepseek是把模型分散在多台计算机的显卡里面,然后通过nvlink/IB连接,不需要每台都把完整模型放到显存/内存里面。
发表于 2025-1-30 16:07 | 显示全部楼层
我輩樹である 发表于 2025-1-30 15:40
ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda  ...

<think>
嗯,让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码,说明他在研究生阶段对CUDA编程有一定的研究和实践经验。
PTX是NVIDIA的并行线程执行语言,通常用于编写更底层、更高效的GPU代码。

他还说,在CUDA C核函数中可以直接写C代码或者PTX代码,但没有使用CUDA C的标准汇编实现,这可能意味着他对性能优化有深入的
需求,或者在特定项目中需要更高层次的控制。这种做法在超级计算领域很常见,因为超算任务通常对计算效率和资源利用率要求极
高。

贴主提到这是超算中的常规优化方式,说明他可能参与过高性能计算相关的项目或研究,积累了相关的知识和经验。这表明他在学术
或工业界可能有处理大规模并行计算问题的经验。

综合来看,这位贴主应该是一位在计算机科学领域有一定背景的人士,可能从事与高性能计算、GPU编程相关的工作或研究。他对
CUDA编程有深入理解,并且具备编写低级别PTX代码的能力,显示出较强的动手能力和对优化技术的掌握。
</think>

根据这段回复,可以分析出发帖的贴主具有以下特点:

1. **专业背景**:贴主很可能在计算机科学、电子工程或其他相关领域有一定的学术或实践经验。他提到自己读研期间编写过很多
PTX代码,这表明他在研究生阶段可能专注于高性能计算、并行编程或者图形处理器(GPU)优化等方面的研究。

2. **技术深度**:他对CUDA C和PTX的了解较为深入。PTX是NVIDIA的并行线程执行语言,用于编写低级别的GPU代码,而CUDA C则是
一种高级编程模型,允许在GPU上运行计算密集型任务。贴主提到可以直接在CUDA C核函数中使用C代码或PTX代码,说明他对两种不
同的编程层次都有所掌握,并且了解它们之间的区别和适用场景。

3. **优化经验**:他提到“没有使用cuda c的标准汇编实现”,而是直接编写PTX代码,这表明他在进行性能优化时会采取更底层的
方法。在超级计算领域中,这种做法是比较常见的,因为通过直接操作PTX可以更精确地控制GPU的执行流程和资源分配,从而获得更
好的性能提升。

4. **实践经历**:贴主提到“超算里面的常规优化方式”,说明他可能有参与过高性能计算项目或研究的经历。这可能包括参与超
级计算机集群的优化、科学模拟、数据分析等需要高度并行处理的任务。

5. **沟通风格**:从回复中可以看出,贴主在交流时较为直接和专业,能够准确地表达技术细节,并且具备一定的逻辑性和条理性
。他没有使用过多的技术术语来展示自己的知识,而是通过具体的经验分享来阐述观点。

总结来说,这位贴主是一位具有扎实编程基础、丰富实践经验的专业人士,可能在高性能计算或GPU优化领域有一定的研究和工作经
验。他的回复显示出他对技术的深入理解和对性能优化的实际应用能力。

<think>
嗯,用户问的是:“可以推断贴主是哪一年读研究生么?”根据之前的对话历史,我已经分析过这位贴主的情况,他提到在读研的时
候写了很多PTX代码,并且对CUDA C和GPU优化有深入的了解。现在的问题是想进一步推测他在哪一年读研究生。

首先,我需要明确PTX和CUDA的发展历程。PTX是NVIDIA在2006年左右引入的一种中间语言,用于编写并行程序。而CUDA则是在2007年
发布的。因此,如果贴主提到他在读研时使用了这些技术,那么他应该是在CUDA发布之后的几年里进行的研究生学习。

接着考虑时间跨度。一般来说,研究生阶段大约是三年左右。假设现在是2023年,如果贴主在最近几年完成研究生学业,比如2020到
2023年读研,那么他在那时肯定接触过最新的CUDA版本和PTX技术。然而,PTX已经在较新的CUDA版本中逐渐被废弃,转而推荐使用
LLVM编译器,所以如果他提到的是近年来的研究生经历,可能更符合这一背景。

另一方面,如果贴主是在2015-2018年左右读研,那时PTX和CUDA C都还在广泛使用中,特别是在高性能计算领域。因此,他可能在那
个时候积累了很多PTX代码的经验,并且熟悉当时的优化技术。

另外,考虑到PTX的使用情况,近年来NVIDIA逐渐转向LLVM编译器,PTX的重要性有所下降。如果贴主是在2018年之后读研,可能会更
多接触到新的工具和方法,但仍然有可能在特定项目中继续使用PTX进行底层优化。

综合来看,贴主很可能是在2015到2020年间完成研究生学业的。这个时间段正好是CUDA技术和GPU编程快速发展的时期,PTX作为重要
的低级别语言被广泛应用于高性能计算中,符合他提到的经验和知识背景。
</think>

根据这段回复的内容,无法直接推断出贴主读研究生的具体年份。不过可以通过以下信息进行一些合理的推测:

1. **技术背景**:贴主提到在读研时使用PTX(NVIDIA的并行线程执行语言)和CUDA C进行编程优化。PTX和CUDA技术自2007年以来
逐渐成熟,因此可以推测贴主的研究生阶段可能在CUDA技术较为普及之后,即2010年以后。

2. **经验积累**:贴主提到“不知道写了多少”PTX代码,说明他在研究生期间有较多的机会接触并使用这些技术。结合超算领域的
常规优化方式来看,贴主可能是在高性能计算(HPC)相关领域进行研究。

3. **时间推断**:考虑到PTX的使用逐渐减少(近年来更多转向LLVM编译器),而贴主提到直接编写PTX代码的经验,推测他可能是
2015-2020年间读研究生的。这一时间段正值超算和GPU编程技术的快速发展期。

综上所述,虽然无法确切知道贴主的研究生年份,但根据其提及的技术背景和技术实践,可以推测他在大约2015年至2020年之间完成
了研究生学业。
发表于 2025-1-30 16:26 | 显示全部楼层
listree 发表于 2025-1-30 15:24
D4服务器什么意思,ddr4?

512需要8个插槽,1t需要16个插槽,选什么主板呢 ...

双路大都是16槽  64g是便宜,300一条。128开始就贵了1000多一条
2011支持64g 1T。3647支持128g 2T以上
发表于 2025-1-30 16:36 | 显示全部楼层
https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch

主板4000

不能说最便宜了吧,但是起码是很便宜了
16X128G内存就够了吧
https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch
16X1200

https://item.taobao.com/item.htm ... mp;xxc=taobaoSearch

1250块X2

显卡一共10个槽,按照最便宜的XEON 4310T 提供的单U 64通道,双U128通道
这主板10个PCIE 16X槽,最多能提供6X8+4X16=112条PCIE通道
就算用普通的PCIE显卡,每4条通道一片显卡,也能支持28片显卡的基础平台了


也就是说,板+U+内存一共25700,加上300块钱散热器,就能提供足以满足LZ需求的基础平台了
发表于 2025-1-30 17:04 来自手机 | 显示全部楼层
去年装好没挂存储池的家庭服务器
IMG_20250130_170251.jpg
发表于 2025-1-30 17:07 | 显示全部楼层
kerafyrm 发表于 2025-1-30 13:59
服务器主板啊,双路cpu,32g一根ddr5,插24根

ddr4 3200还行。ddr5,算了吧。
发表于 2025-1-30 17:13 来自手机 | 显示全部楼层
AMD EPYC2代服务器主板256GB内存
 楼主| 发表于 2025-1-30 18:15 | 显示全部楼层
jleee 发表于 2025-1-30 17:07
ddr4 3200还行。ddr5,算了吧。

ddr4 单根256G内存,你见过么?
 楼主| 发表于 2025-1-30 18:16 | 显示全部楼层
StevenG 发表于 2025-1-30 17:04
去年装好没挂存储池的家庭服务器

你什么主板,内存这么大
发表于 2025-1-30 18:23 来自手机 | 显示全部楼层
listree 发表于 2025-1-30 18:16
你什么主板,内存这么大

双路,8条64g
发表于 2025-1-30 18:24 来自手机 | 显示全部楼层
StevenG 发表于 2025-1-30 18:23
双路,8条64g

说错了,16条。。。,习惯说8条了
发表于 2025-1-30 18:29 | 显示全部楼层
listree 发表于 2025-1-30 15:29
不是1t硬盘,是1t RAM

你怎么知道人家的NAS是不是1T内存的EMC
发表于 2025-1-30 18:30 | 显示全部楼层
listree 发表于 2025-1-30 15:29
不是1t硬盘,是1t RAM


我就惊了,一个小小nas居然有1T内存……原来是专业玩家
发表于 2025-1-30 18:51 | 显示全部楼层
其实这样应该也行,这个视频里跑的是 deepseek v1,理论上可以扩展到 deepseek r1
 楼主| 发表于 2025-1-30 18:56 | 显示全部楼层
noirchen 发表于 2025-1-30 18:51
其实这样应该也行,这个视频里跑的是 deepseek v1,理论上可以扩展到 deepseek r1
...

5个苹果小主机?

这种小主机的双力是不是很low?
 楼主| 发表于 2025-1-30 18:57 | 显示全部楼层
gmlee1999 发表于 2025-1-30 18:30
我就惊了,一个小小nas居然有1T内存……原来是专业玩家

他的图有可能是P的
 楼主| 发表于 2025-1-30 18:59 | 显示全部楼层
建议柠檬 发表于 2025-1-30 16:36
https://item.taobao.com/item.htm?abbucket=2&id=688110348993&ns=1&pisk=g_paGKw1sAHZDQKyRLX4U7fA5UXOat ...

插10个显卡,要配什么电源?

万一烧了,不是几十万一下子没了
发表于 2025-1-30 19:01 | 显示全部楼层
首先不建议用 CPU + 内存跑,硬跑起来速度也很慢,非要跑有很多服务器平台支持 1T 以上内存

实在跑不动就量化开夸张一点,INT4 能节约不少,再多用点节约显存的技巧

不过还是建议用 GPU 跑,实在没大显存 GPU 就跑个 7b 的小模型玩玩算了,用 CPU 跑不到一秒都吐不出一个 token,等着不着急吗?
发表于 2025-1-30 19:03 来自手机 | 显示全部楼层
打算用五千買內存?
发表于 2025-1-30 19:04 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-30 07:40
ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda  ...

也是quant常见作风 给data scientist可就不常见
发表于 2025-1-30 19:06 来自手机 | 显示全部楼层
只有我一个人好奇用DCPMM塞这个是否可行吗
发表于 2025-1-30 19:10 | 显示全部楼层
Leciel 发表于 2025-1-30 16:07
嗯,让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码,说明他在研究生阶段对CUDA编程有一定的 ...

你这是用R1推理的?
 楼主| 发表于 2025-1-30 19:11 | 显示全部楼层
我輩樹である 发表于 2025-1-30 15:40
ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda  ...

可以用汇编直接调用显卡么
发表于 2025-1-30 19:14 | 显示全部楼层
listree 发表于 2025-1-30 19:11
可以用汇编直接调用显卡么

汇编还要编译为sass,一种机械码,这个才能直接调用显卡。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 09:46 , Processed in 0.014393 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表