找回密码
 加入我们
搜索
      
楼主: sthuasheng

[CPU] 内存焦虑党的福音来了:AMD的Strix Halo可配备最高128GB内存

[复制链接]
发表于 2024-6-25 21:46 | 显示全部楼层
对于普通人,其实把ps5那块板,拿出来,配上个32G的GDDR6, 想想都有意思。
发表于 2024-6-25 22:40 | 显示全部楼层
本帖最后由 FelixIvory 于 2024-6-25 22:55 编辑
Asgard 发表于 2024-6-25 16:01
这玩意越看越像给下一代主机用的,APU性能大概是3060的水平,对于主机平台够用了
在家插电120w,出门就降, ...


前言不搭后语。
下代主机 3060?建议买个ps5先!
120w 移动化?ns sd什么功率范围先了解下。
120w 散热和电池疯了?你要不要买个游戏本看看多少瓦?
发表于 2024-6-26 00:25 | 显示全部楼层
本帖最后由 liyichao97 于 2024-6-26 00:28 编辑
3s7s2v 发表于 2024-6-24 22:38
不知道硬件上最多能分多少内存给核显当显存用

目前Windows平台暂时还不支持类似M芯片Mac那种统一内存模式 ...


sd我几乎没用过,不过llm本地推理(一般batchsize=1的)速度几乎只和dram带宽有关系,甚至可以直接根据带宽把速度给算出来,每秒带宽/(模型尺寸+context尺寸)=生成速度,甚至用cpu跑推理都完全不会卡在算力瓶颈上。
所以mbp和mac studio在这个圈里火起来其实核心原因还真不在容量,而在于m系max有512bit的位宽,提供了400g/s的带宽,足以把q4量化的70b大模型跑出接近10t/s的速度。相比之下x86 msdt虽然能插满192g的内存,但是带宽就100g/s,大尺寸的模型确实能装下,但是带宽硬瓶颈卡住了完全跑不动。
所以说strix halo对llm爱好者是个神器,它虽然肯定贵,但不可能是mbp那样的贵。256bit 7533频率的内存能提供240g/s的带宽,如果配64g的内存可以流畅跑q4甚至q6的34b模型,跑14b模型或者类mixtral模型可以速度飞起来,我觉得可以说是个比较好的平衡点。
当然,不管怎么说这个需求都太小众了……我觉得这些考虑几乎不会对厂商选型产生任何影响。
发表于 2024-6-26 21:17 | 显示全部楼层
本帖最后由 3s7s2v 于 2024-6-26 21:24 编辑
liyichao97 发表于 2024-6-26 00:25
sd我几乎没用过,不过llm本地推理(一般batchsize=1的)速度几乎只和dram带宽有关系,甚至可以直接根据带 ...


非常感谢,又学到了新的知识

最近几个月一直在跑SDXL,套用这方面的一些经验结果得到了错误的认知。在此之前一直不太了解大语言LLM吃内存带宽这件事,想当然以为仅仅是容量不够就跑不起来,十分感谢您的指点和纠正

我目前是149K插满4槽内存192G,刚刚测了一下这个内存带宽非常不理想,只有75G/s左右的样子,离主流x86 MSDT DDR5的100G/s还有一段距离,主要原因还是4槽内存频率起不来,先前也是调试了很久才稳在了5400。如果想要高频,x86 MSDT这边其实最高只能2槽96G,假设颗粒状况较为理想,拉到8200来算大概是112G/s左右,离M2Max的400G/s还是很遥远就是了,M2Ultra的800G/s就更遥远了,难怪那么多人拿Mac Studio跑大模型还说很有性价比,RTX6000Ada是单卡48G内存,虽然内存带宽高达960G/s,但是容量完全放不下70b模型,况且这一块儿卡就比满配192G内存M2Ultra的Studio要贵了,H100更是有价无市
发表于 2024-6-26 21:36 | 显示全部楼层
7970Raymond 发表于 2024-6-24 21:03
没懂这东西造出来给谁用

游戏机
发表于 2024-6-26 21:38 | 显示全部楼层
dychenyi 发表于 2024-6-25 21:46
对于普通人,其实把ps5那块板,拿出来,配上个32G的GDDR6, 想想都有意思。

几年前市面上有流出拿残次品做的4700s主板,延迟高得飞起
发表于 2024-6-26 21:57 | 显示全部楼层
frezta 发表于 2024-6-26 21:38
几年前市面上有流出拿残次品做的4700s主板,延迟高得飞起

那是去掉了核显,只有PCI-E 2.0 x4,延迟大不是理所当然么。
发表于 2024-6-27 09:42 | 显示全部楼层
3s7s2v 发表于 2024-6-26 21:17
非常感谢,又学到了新的知识

最近几个月一直在跑SDXL,套用这方面的一些经验结果得到了错误的认知。在此 ...

确实就是这个道理,x86 msdt装得下跑不动,消费级显卡跑得动装不下,专业卡和x86服务器cpu都是好东西但是天价,唯有厂商发发善心给消费级拉高内存位宽才是性价比最高的解法
发表于 2024-6-27 09:52 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-6-27 10:04 编辑
3s7s2v 发表于 2024-6-26 21:17
非常感谢,又学到了新的知识

最近几个月一直在跑SDXL,套用这方面的一些经验结果得到了错误的认知。在此 ...


这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远比mac studio快
如果考虑便宜的话, 换成两张24g卡也能随便跑远超出mac studio的速度, (这也是为什么P40洋垃圾大幅涨价, 从700涨到近2000了), mac studio谈不上任何性价比
就算不考虑洋垃圾, 全新两张7900xtx也是可以无障碍跑70b q4的(小白都能一键包的那种无障碍)

再然后, ada架构48g显存有L20和L40, 前者2w多, 后者3w多, 也是比m2 ultra便宜

说m2 ultra性价比基本是不了解有些什么部署方式以及各型号显卡情况被忽悠瘸的


====================
另外这种用途完全不需要担心pcie带宽的问题, 多卡pipeline bs1仅推理的情况下, 卡之间每token只需要传一次hidden state, 数据量非常小, m.2转接pcie 3.0x4都是绰绰有余的, tensor parallelism才会对带宽有要求, 但这不是唯一的多卡方式(主要用于训练和大批量推理)
发表于 2024-6-27 12:40 | 显示全部楼层
liyichao97 发表于 2024-6-27 09:42
确实就是这个道理,x86 msdt装得下跑不动,消费级显卡跑得动装不下,专业卡和x86服务器cpu都是好东西但是 ...

只能说Strix Halo这个256-bit内存控制器理想真的很美好,我内心也是迫切地希望他真的能成为民间LLM爱好者的低成本平台神器,但是这就又回到开始的那个问题了,从前几代APU来看没有统一内存模式,显存和内存是在BIOS里面硬划分出来的,如果仍然采用这种模式,那恐怕希望就落空了
发表于 2024-6-27 12:44 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-6-27 12:46 编辑
3s7s2v 发表于 2024-6-27 12:40
只能说Strix Halo这个256-bit内存控制器理想真的很美好,我内心也是迫切地希望他真的能成为民间LLM爱好者 ...


"从前几代APU来看没有统一内存模式"

有的, llama.cpp社区早就把rocblas的680m/780m build + uma跑llm全套流程搞通了


详见
https://github.com/ggerganov/llama.cpp/pull/4449
https://github.com/ggerganov/llama.cpp/pull/7414
发表于 2024-6-27 13:01 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 09:52
这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远 ...

只跑推理的话确实有很多便宜大碗方案,如果想自己训练模型或者微调模型压力就很大了,192G也就勉强能以float训练13B模型,这会儿再看这些24G、32G乃至48G内存的显卡,就觉得这点内存真是捉襟见肘
发表于 2024-6-27 13:04 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 12:44
"从前几代APU来看没有统一内存模式"

有的, llama.cpp社区早就把rocblas的680m/780m build + uma跑llm全 ...

那真是太好了,我简直是孤陋寡闻,我现在已经等不及Strix Halo发售了,这绝对是神器
发表于 2024-6-27 13:20 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 12:44
"从前几代APU来看没有统一内存模式"

有的, llama.cpp社区早就把rocblas的680m/780m build + uma跑llm全 ...

这是AMD一个巨大机会,nv的短板,看amd能不能抓住了
发表于 2024-6-27 14:02 | 显示全部楼层
3s7s2v 发表于 2024-6-27 13:01
只跑推理的话确实有很多便宜大碗方案,如果想自己训练模型或者微调模型压力就很大了,192G也就勉强能以fl ...


48g或者双卡24g全参数bf16微调13b模型可以用galore/adalomo/badam这些优化器, 以牺牲一点速度和稍微复杂一点的超参为代价节省大部分显存, bs小点用grad accum, 配合activation checkpointing就能做到

(虽说是牺牲一点速度, 但也就2倍耗时以内, 比拿m2u去干这个还是快不知道哪里去了
发表于 2024-6-27 15:09 | 显示全部楼层
如果说Rocm pytorch性能还过得去的话,倒是一个很好深度学习的学习机,192G的内存可以跑很多东西了。
发表于 2024-6-27 16:05 | 显示全部楼层
本帖最后由 liyichao97 于 2024-6-27 16:18 编辑
zhuifeng88 发表于 2024-6-27 09:52
这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远 ...


m系性价比肯定比不了p40(甚至比不了3090),但是m系能装笔记本里带着走嘛…在strix halo出来之前完全没有其他可比的解决方案
能用便携设备随便跑,不用买一堆洋垃圾堆在家里本身就是一种性价比了

编辑:而且我查了一下,p40还是gddr5啊,那应该速度跑不过m系的max,更不用说ultra了
发表于 2024-6-27 16:10 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 14:02
48g或者双卡24g全参数bf16微调13b模型可以用galore/adalomo/badam这些优化器, 以牺牲一点速度和稍微复杂 ...

原来如此,涨知识了
发表于 2024-6-27 16:22 | 显示全部楼层
liyichao97 发表于 2024-6-27 16:05
m系性价比肯定比不了p40(甚至比不了3090),但是m系能装笔记本里带着走嘛…在strix halo出来之前完全没 ...


"而且我查了一下,p40还是gddr5啊,那应该速度跑不过m系的max,更不用说ultra了"

前情提要: 两张p40, 一张也塞不下70b q4
发表于 2024-6-27 16:50 | 显示全部楼层

**就是 显卡计算单元, 封装了RDNA3.5架构的显卡 和 NPU ai计算单元在里面
发表于 2024-6-27 17:15 | 显示全部楼层
frezta 发表于 2024-6-26 21:38
几年前市面上有流出拿残次品做的4700s主板,延迟高得飞起

系统和驱动的问题 XBOX就是个套壳WIN 用的玩意也是差不多
正常定制也是有系统的 只不过系统比较小 内存最早只配512m
发表于 2024-6-27 17:56 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 16:22
"而且我查了一下,p40还是gddr5啊,那应该速度跑不过m系的max,更不用说ultra了"

前情提要: 两张p40, 一 ...

bs=1并且不tensor parallel的话,一轮推理内是串行的,算完这张卡上的层才能算下一张,所以最终算推理吞吐的时候只能按一张卡的带宽算
tensor parallel就又得吃互联能力了,而且是不是一般不会这么干啊……我没实践过多卡,不太清楚
发表于 2024-6-27 18:25 | 显示全部楼层
liyichao97 发表于 2024-6-27 17:56
bs=1并且不tensor parallel的话,一轮推理内是串行的,算完这张卡上的层才能算下一张,所以最终算推理吞 ...

这是纯粹sequential了, 实际可以pipeline + ngram speculative
发表于 2024-6-27 18:40 | 显示全部楼层
sthuasheng 发表于 2024-6-24 19:14
这货的核显和独显差不多了,可以理解为120w是整台笔记本的功耗,这样看也还好? ...

散热系统瑟瑟发抖中……
发表于 2024-6-27 20:41 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 18:25
这是纯粹sequential了, 实际可以pipeline + ngram speculative

去稍微了解了一下,学习了。谢谢!
发表于 2024-6-28 09:23 | 显示全部楼层
Asgard 发表于 2024-6-25 16:01
这玩意越看越像给下一代主机用的,APU性能大概是3060的水平,对于主机平台够用了
在家插电120w,出门就降, ...

掌机不说,笔电怎么就不行了呢?

现在的上了独显的本子不都是分分钟120W以上?
发表于 2024-6-28 09:58 | 显示全部楼层

这就很魔幻了
发表于 2024-6-29 13:49 | 显示全部楼层
dychenyi 发表于 2024-6-26 21:57
那是去掉了核显,只有PCI-E 2.0 x4,延迟大不是理所当然么。

说的是GDDR6的延迟高.当系统内存读写140+的延迟。几年前ps4破解的时候就有人往上面装linux,测试GDDR的CL高普通DDR一大截。
发表于 2024-8-3 02:04 来自手机 | 显示全部楼层
Asgard 发表于 2024-6-25 16:01
这玩意越看越像给下一代主机用的,APU性能大概是3060的水平,对于主机平台够用了
在家插电120w,出门就降, ...

笔电应该还是挺有戏的,120W的满载功耗对于现在的全能本来说压住简直轻轻松松,个人最希望看到的产品思路是:出门要续航,就关掉一个ccd,然后降压降频,变成7800u+890m,回家插上电,性能拉满,变成7950hx+4060(我是不是想的太美好了一点。。。)
发表于 2024-8-3 10:58 | 显示全部楼层
Asgard 发表于 2024-6-25 00:01
这玩意越看越像给下一代主机用的,APU性能大概是3060的水平,对于主机平台够用了
在家插电120w,出门就降, ...

这不就是x86的M3 MAX吗?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-5 14:46 , Processed in 0.013005 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表