KimmyGLM 发表于 2025-2-27 12:10
不太行,tr pro的理论带宽如下。还不如eypc 9135 这种入门16CCD 跑满带宽的划算。
站里帖子:https://ww ...
那还是7960X比较合算 (个人财力而言), 万来的CPU, 万来的板, 万来的RAM, 还要加上像样的GPU(ada6000或魔改4090),
如果用409048G的话也就可以把省下的钱分配回在7965X上
查看了一下, 您说的eypc 9135是个好东西 ux4d 发表于 2025-2-27 12:00
qwen2.5 72b应该就是4bit量化跑的,因为跑8bit必定炸显存。5600双通道我这边带宽78G/s,你是不是少打了一 ...
对70GBT_T
脑子里已经在想4090 96G了哈哈,对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090的优势,我p100x4 vllm也有18-20tok/s output,但是出首token估计比4090差很多。
你跑5600 192G,这很正常。
我就不知道之前论坛里有个虾子非要说intel ultra2生产力内存跑8000 8800。
未必他192G跑8000 8800? 本帖最后由 KimmyGLM 于 2025-2-27 13:01 编辑
panzerlied 发表于 2025-2-27 12:57
你跑5600 192G,这很正常。
我就不知道之前论坛里有个虾子非要说intel ultra2生产力内存跑8000 8800。
万一未来真的有cudimm 256g 8000套装呢?
只要不差钱,一切皆有可能,加点RGB,2w卖富哥 家用双通道还是别折腾了,老老实实跑32B就挺好
前天用c612 2640v4 96G 内存加亮机卡试了试14b ,还能跑,现在想跑大的得搞张显卡才行。 q3again0605 发表于 2025-2-27 12:40
对70GBT_T
脑子里已经在想4090 96G了哈哈,对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090 ...
很牛的低成本实现[傻笑]4090出首tokens确实飞快,问题刚回车敲下去它就开始出字了 ux4d 发表于 2025-2-27 13:45
很牛的低成本实现4090出首tokens确实飞快,问题刚回车敲下去它就开始出字了 ...
首token主要看算力,吐字主要看带宽。 KimmyGLM 发表于 2025-2-27 10:44
折腾这个,比玩游戏带劲多了,哈哈哈哈。
哈哈,满满的成就感都快溢出屏幕了[傻笑] 本帖最后由 声色茶马 于 2025-2-27 16:05 编辑
ux4d 发表于 2025-2-27 10:36
太对了哥,折腾这些东西不整epyc xeon没有前途,内存容量和内存带宽被双双爆杀 ...
看LZ这个配置,也是个不差钱的大佬。那赶紧双路EYPC 12通道1T内存走起。 松田 发表于 2025-2-27 11:29
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 ...
如果要用TR pro, 不推荐用7955WX,推荐7965WX及以上。
7955wx的内存带宽是有被限制的由于2CCD(https://www.reddit.com/r/threadripper/comments/1azmkvg/comparing_threadripper_7000_memory_bandwidth_for/)。
7965wx及以上受限于内存速度,都是5200的话,7965wx到7995wx的内存带宽都只有240GB/s左右
要速度推荐四代以上可扩展志强或新的epyc
本帖最后由 KimmyGLM 于 2025-2-27 17:06 编辑
LNT 发表于 2025-2-27 16:45
如果要用TR pro, 不推荐用7955WX,推荐7965WX及以上。
7955wx的内存带宽是有被限制的由于2CCD(https:// ...
但是,和Xeon W series 一样,内存可以OC 啊!轻松上个6000,内存带宽就300G了;
Tr pro 主要是可以兼顾日常使用,一台机器玩玩游戏,跑跑LLM;
归根结底,这玩意性价比不行,而且几乎没ES QS可玩,便宜的基本都是有锁的鸡肋。
同样是大单路的话,9174F, 9175F带宽更猛,单核睿频也有近5G ~
12通道的前提下
9005 2dpc 1r 理论带宽422.4G/s
9005 2dpc 2r 理论带宽 384G/s
9004 2dpc理论带宽 345.6G/s KimmyGLM 发表于 2025-2-27 16:51
但是,和Xeon W series 一样,内存可以OC 啊!轻松上个6000,内存带宽就300G了;
Tr pro 主要是可以兼顾 ...
6000那个是超的,正常z6a,p8都是7995wx的话只有240GB/s不到
用ktransformer搭配9005跑671q4已经可以做到17tokens/s了
但我用7955wx+512G+4090只能跑6.2tokens/s,所以要搞还是不推荐tr pro 这个看起来很好玩的样子 哈哈哈,楼主带宽看着和我差不多
可以跑下llama-bench的测试
我跑1.58b是 pp512 63.79 ± 0.09,tg128 4.29 ± 0.01
跑 1.73b因为进硬盘了,pp512 2.14 ± 0.01,tg1283.47 ± 0.57 Ktransformers不支持动态量化,unsloth也还没被支持吧 hawie 发表于 2025-2-27 19:18
Ktransformers不支持动态量化,unsloth也还没被支持吧
2.51bit那个可以,2.51bit这个和Q4量化的没有本质区别,再下面三个似乎带内存压缩,暂时不行。 LZ,请教一下,2.51bit这个相当于Q2量化,比2.22bit的动态量化 精度有明显提升吗?我看unsloth官网只说The first 3 uses an importance matrix to calibrate the quantization process (imatrix via llama.cpp) to allow lower bit representations. The last 212GB version is a general 2bit quant with no calibration done.
另外,unsloth只给了了对应显存的层数权重分配,可是没有给出在这些分配过后,对内存那边的需求。
举例来说,他说32G显存,运行2.51bit,可以把5层放显存,那其他56层放内存, 假如带宽一样,285K搭配4*48G和4*64G的内存,运行起来速度会不会有明显区别? 还是说内存带宽在这摆着,内存容量已经不是很影响了,就是看能把多少层放显存了,比如48G显卡会比32G显卡速度有明显提升?
页:
1
[2]