找回密码
 加入我们
搜索
      
查看: 1433|回复: 19

[显卡] 40/50系烧电源接口的分析以及预测

[复制链接]
发表于 2025-2-13 11:07 | 显示全部楼层 |阅读模式
本帖最后由 FakeUberDriver 于 2025-2-13 11:24 编辑

我感觉AHOC和Der8auer都没有说到关键点上,我跟O3-mini聊了一会儿,把最终结论总结一下给大家。

1. 初始电阻差异:
        •        虽然12VHPWR设计上采用并联方案,但实际制造过程中(如线缆、接头、PCB走线)【一定会】存在微小的电阻差异,哪怕只有微欧姆级别。

2. 电流分配不均与焦耳热效应:
        •        由于电阻差异,部分线路会承担略多电流,而较高电阻的线路承担较少电流。
        •        根据焦耳定律(Q = I²R·t),电流多的线路会产生更多热量,逐渐导致温度差异。

3. 正温度系数(PTC)引起的电阻变化与负载重新分配:
        •        大多数金属导体具有正温度系数,温度升高会导致其电阻增加。
        •        当某支路(初始电阻低的支路)因高功耗而发热,其电阻随温度上升而增加。
        •        虽然电阻增大会使得该支路电流降低(根据 I = V/R),但系统是一个固定总电流的并联网络——电流会重新分配给其他支路,导致其他支路负载增加,也可能进入加热状态。

4. 动态正反馈循环的形成:
        •        初期: 低阻支路因较高功耗发热,温度上升。
        •        反馈作用: 温度上升使其电阻增加,部分电流转移到原本温度较低的其他支路。
        •        连锁效应: 新分流的支路因承担额外电流而发热,进而电阻也上升,导致电流再次重新分布。
        •        整个过程使得温度分布越来越不均匀,局部过热风险逐渐放大,形成类似正反馈的循环



5. “抽奖”效应:
        •        在大部分情况下,这种微小的差异可能不会引起问题,但在高功率、长时间高负载下,尤其是在高环境温度条件下,这种差异很可能“走运”到触发正反馈循环,从而引发严重故障。

6. 环境温度与显卡负载的影响:
        •        环境温度越高、显卡负载越大,触发正反馈循环所需的电阻差异阈值就越低。
        •        因此,即使是极小的初始差异,在高温或高负载条件下也足以引发局部过热问题。


7. 缺乏主动电流平衡机制的后果:
        •        当前的设计在12VHPWR进入VRM前就合并了多路电流,完全依赖被动电阻特性,没有主动监控或调节电流分配的机制。
        •        一旦出现初始电阻不均,就容易陷入正反馈循环,增加局部烧毁风险。

划重点!!!!

40系和50系显卡【不是】因为12VHPWR 和 12V-2x6在设计上存在隐患,而是所有的线在进入VRM之前就汇聚成一体,完全没有给VRM任何电流负载调节的余地。各种电源线材制造过程中不可避免的电线和接头处微小电阻差异,在高负载或高温环境下,一旦超过某个阈值,就会触发正反馈循环,导致局部过热和烧毁。

我大胆预测,如果60系让所有的12v线在进入VRM回路之前就汇聚,不设置任何线路负载平衡机制,即使是换成最老的8Pin x 3,一样照烧不误。


(补充一点,华硕那个6 shunt测量设计就像在737MAX系列上装个摄像头一样,只能让你知道自己是怎么死的,并不能从根本上解决负载均衡的问题。如果可能的话,最多是shunt和单独的电源芯片发现电流负载分配不正常时可以软限制显卡功率。)
 楼主| 发表于 2025-2-13 11:09 | 显示全部楼层
这个AI编出来的正温度系数让我想到了切尔诺贝利的正空泡系数,跟核弹显卡搭配起来实在是妙。
发表于 2025-2-13 11:13 | 显示全部楼层
本帖最后由 PolyMorph 于 2025-2-13 11:17 编辑

3090这是2路?

1000044462.jpg
发表于 2025-2-13 11:17 | 显示全部楼层
接触电阻很可能是这个烧毁案例的根源,看热成像也能看到热点集中在端子上面。用久了的线部分插孔松动加上弯折带来的一部分应力导致几个插孔接触不良电阻升高,负载就全都跑到接触良好的几个端口上面去了,然后boom
发表于 2025-2-13 11:18 | 显示全部楼层
这个就是扯淡,你还真把openai当专家了
电阻高,电流就不经过,p=ui,温度就低,openai刚好搞反了,
线的内阻是必然存在的,这种就是简单的并联后电流无调整只走低电阻段。然后超温
发表于 2025-2-13 11:19 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-2-13 11:22 | 显示全部楼层
townkiller 发表于 2025-2-13 11:18
这个就是扯淡,你还真把openai当专家了
电阻高,电流就不经过,p=ui,温度就低,openai刚好搞反了,
线的内 ...

1. 固定电压下的并联特性:
        •        在12VHPWR系统中,各并联支路基本上承受相同的电压。
        •        根据欧姆定律:

I = \frac{V}{R}

和功率公式(对于固定电压来说):

P = \frac{V^2}{R}

初始时,电阻略低的支路会分担更多电流,因而产生更高的功耗和更多热量。

2. 初始电阻微小差异引起的功率分布:
        •        制造中不可避免的微小差异(如线缆、接头、PCB走线)会使得各支路的电阻略有不同。
        •        低阻支路按照 P = V^2/R 会产生更大的功耗(热量),从而温度上升更快。

3. 正温度系数(PTC)引起的电阻变化与负载重新分配:
        •        大多数金属导体具有正温度系数,温度升高会导致其电阻增加。
        •        当某支路(初始电阻低的支路)因高功耗而发热,其电阻随温度上升而增加。
        •        虽然电阻增大会使得该支路电流降低(根据 I = V/R),但系统是一个固定总电流的并联网络——电流会重新分配给其他支路,导致其他支路负载增加,也可能进入加热状态。

4. 动态正反馈循环的形成:
        •        初期: 低阻支路因较高功耗发热,温度上升。
        •        反馈作用: 温度上升使其电阻增加,部分电流转移到原本温度较低的其他支路。
        •        连锁效应: 新分流的支路因承担额外电流而发热,进而电阻也上升,导致电流再次重新分布。
        •        整个过程使得温度分布越来越不均匀,局部过热风险逐渐放大,形成类似正反馈的循环。

5. 环境温度与负载的影响:
        •        环境温度高或显卡负载大时,总体散热条件变差,任何微小的初始差异都更容易触发这种连锁反应。
        •        在高温或高负载状态下,即便是非常小的电阻差异也可能成为“触发点”,使局部支路快速进入失控状态。

6. 总结:
虽然从单支路来看,电阻高的支路电流低、功耗少、温度低,但在固定电压的并联系统中,初始低阻支路因承载更多电流而先行发热,进而因正温度系数使其电阻上升,导致电流重新分配到其他支路,形成动态的不均衡。最终,这种由温度变化引起的负载重新分配会在整个系统内引发正反馈循环,增加局部过热和烧毁的风险。

只能祭出O3-high了。你的质疑是合理的,不过这个可以解答。
发表于 2025-2-13 11:23 | 显示全部楼层
就是瞎扯淡,电流分配正常状态下不会差很多,它那个就是没插好
 楼主| 发表于 2025-2-13 11:25 | 显示全部楼层
Montelucast 发表于 2025-2-13 11:23
就是瞎扯淡,电流分配正常状态下不会差很多,它那个就是没插好

这种说法有一定道理,但其实问题并不全归咎于“没插好”。正确插入固然能减少接触不良带来的问题,但即便在理想情况下,也可能存在以下因素:
        1.        制造公差和微小差异:
即使所有连接都正确,由于线缆、接头和PCB走线等方面的微小电阻差异,电流在各支路中的分配也可能略有偏差。在高功率系统中,这些微小差异有时会被放大。
        2.        高负载和热效应:
在极端高负载或高环境温度条件下,即使是微小的初始差异也可能因焦耳热效应和正温度系数效应而形成正反馈循环,导致局部过热。
        3.        设计缺陷:
12VHPWR设计上在进入VRM前就合并了多路电流,而且缺乏主动电流平衡机制,这使得即便正确插入,系统对微小差异的容忍度也较低。

所以,说“电流分配正常情况下不会差很多”未必完全适用于极端工况。插头没插好确实可能导致更明显的问题,但即使一切都“插好”,在高功率、长负载的条件下,设计和制造中固有的微小差异也可能引发不均衡,进而加剧局部发热风险。这种风险正是我们所关注的设计隐患。
 楼主| 发表于 2025-2-13 11:37 | 显示全部楼层

根据techpowerup的电路板分析和AHOC最近的视频,30系似乎都是3路。 这样一来即使没有主动的负载均衡,每一路最高只有总功耗的1/3的情况下,形成这种恶性循环的阈值很高。另外这三路任何一路供电出现问题,显卡直接黑屏,不会等到线都烧糊了显卡还在让其他的线更努力的工作。
发表于 2025-2-13 11:39 | 显示全部楼层
你是用中文问的O3-mini么? 如果是的话建议去问deepseek
O3-MIMI那边中文理解感觉比deepseek差不少
发表于 2025-2-13 11:43 | 显示全部楼层
我还奇怪O3-mini是哪个专家人物,原来是AI

这玩意儿在没有专门库训练的情况下在专业问题上和百度坐一桌
 楼主| 发表于 2025-2-13 11:48 | 显示全部楼层
本帖最后由 FakeUberDriver 于 2025-2-13 11:53 编辑
灵乌路空 发表于 2025-2-13 11:43
我还奇怪O3-mini是哪个专家人物,原来是AI

这玩意儿在没有专门库训练的情况下在专业问题上和百度坐一桌 ...


你这不是稻草人逻辑谬误么?你觉得O3推理的不对可以直接跟它对线,把话题从显卡转移到大模型厉害不厉害?非要扯这个,瞧不起OpenAI你可以去试试Deepseek,给出参数推理一下不就好了,还是给你O3建议的初始参数,你拿去问呗。        

1.        电气参数:
        •        供电电压 (V): 如12V。
        •        各线路初始电阻 (R): 对每根线给出初始电阻值(例如,R₁, R₂, R₃…),以及它们之间的微小差异(ΔR)。
        •        初始功率分配: 根据 P_i = \frac{V^2}{R_i} 计算每根线路的初始功率。
        2.        温度对电阻的影响:
        •        正温度系数 (α): 描述材料电阻随温度变化的速率,例如:R(T)=R_0[1+\alpha(T-T_0)]。
        3.        热学参数:
        •        线材的比热容 (c): 单位通常为 J/(kg·K),用于确定温度升高所需的热量。
        •        线材的质量或体积 (m 或 V) 及密度 (ρ): 用于计算加热过程中的热容, C = m \cdot c(或根据体积和密度计算)。
        •        线材的热导率 (k): 如果需要考虑沿线材内部的温度分布。
        4.        环境及散热条件:
        •        环境温度 (T_ambient): 初始的环境温度。
        •        热交换系数 (h): 描述线材与环境之间通过对流、辐射等方式散热的速率,或者直接给出初始的热交换速率。
        •        表面积 (A): 线材用于散热的有效表面积,用于计算散热功率 P_{cool} = hA(T-T_{ambient})。
        5.        动态模型的初始状态:
        •        初始温度分布: 通常假设所有线路初始时均处于环境温度。
        •        时间步长 (Δt): 用于模拟温度随时间变化的数值模型。
        6.        系统边界条件:
        •        如果考虑局部热耦合(例如线路之间的热辐射或传导),可能还需要描述相邻线路之间的热交换情况。

有了以上初始条件,就可以建立类似下面的时间微分方程来描述每根线的温度变化:


\frac{dT_i}{dt} = \frac{P_i(T_i) - hA(T_i-T_{ambient})}{m_i c}


其中 P_i(T_i) = \frac{V^2}{R_i(T_i)} 而 R_i(T_i)=R_{i0}[1+\alpha(T_i-T_{ambient})]。

这种模型可以用来研究在不同初始条件下,哪根线路可能进入正反馈循环,即温度不断上升,导致局部失控,从而形成“危险平衡”。
发表于 2025-2-13 12:04 | 显示全部楼层
bigeblis 发表于 2025-2-13 11:19
多路监控实现难度低
多路自动均衡就难,而且成本也高。
我躺着什么也不干,一张卡卖3w都一堆人抢,为什么要 ...

根本就不难纯照抄3090供电就行了,数字pwm主控有啥难以实现的。

发表于 2025-2-13 12:44 | 显示全部楼层
本帖最后由 chungexcy 于 2025-2-13 12:46 编辑

等等,这AI是不是只考虑发热,不考虑空气的散热啊。。。你要没有散热,自然这个正反馈能把温度干到正无穷。。。

温差越高,散热越快,温升速率越受一致,这个负反馈AI怕不是忘了。低电流导线的升温反而快于高电流导线
发表于 2025-2-13 12:53 | 显示全部楼层
输电线上九成的电阻在插头,即便如此插头的接触电阻也很小。这种小插头想加热到150度只需要两三W的热功率,20A电流下也就不到10毫欧阻值。插头接触好点差点差出来十几几十个毫欧的阻值很正常,所以电流差异会很大。
最好的办法就是别直接并联,每组线缆各自负责几个mos的供电,mos的输出再并一起,这样mos本身相当于一个较大的电阻,在这个电阻基础上接触电阻的那点差值就可以忽略了,就不会这样分配不均。
发表于 2025-2-13 13:12 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-13 13:21 | 显示全部楼层
kaiwenwu 发表于 2025-2-13 12:04
根本就不难纯照抄3090供电就行了,数字pwm主控有啥难以实现的。

成本、成本、还是成本
发表于 2025-2-13 13:31 | 显示全部楼层
你要是问AI你不懂的问题,那么被AI忽悠的概率就是百分百。
发表于 2025-2-13 22:48 | 显示全部楼层
tiantian80 发表于 2025-2-13 13:21
成本、成本、还是成本

现在的卡pcb和元件成本比3090的高
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:51 , Processed in 0.012388 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表