找回密码
 加入我们
搜索
      
查看: 4349|回复: 9

[CPU] pytorch代码纯CPU跑不稳定

[复制链接]
发表于 2023-4-8 13:59 来自手机 | 显示全部楼层 |阅读模式
深度学习菜鸟一枚,由于课题有一些涉及深度学习的内容,这段时间试着跑了一个1DCNN的小模型,目前用的A卡,用不了CUDA,就直接纯CPU了。我的10920x用的u12a压着,oc很保守就全核4.6日常用,都没问题。结果跑这个模型,CPU占用也就60%,但时不时就是蓝屏。才开始以为是内存的锅,真香条降到默认频率还是蓝,就再看CPU,这才发现24个框框只用一半,12个满载,12个0利用,aida看了下核心温度最高也就70度么 咋就不停蓝屏,调了一早上也没稳下来,倒是把avx offset 降低一档能稍微好一些,不过还是偶尔会蓝。有经验的大佬来指点指点哈
发表于 2023-4-8 14:02 | 显示全部楼层
pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。
 楼主| 发表于 2023-4-8 14:10 来自手机 | 显示全部楼层
surfwave 发表于 2023-4-8 14:02
pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。

看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟
发表于 2023-4-8 14:12 来自手机 | 显示全部楼层
全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝屏dump看看具体是什么错误。
发表于 2023-4-8 14:13 来自手机 | 显示全部楼层
zzeng12 发表于 2023-4-8 14:10
看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟

遇到问题再说,好过CPU跑超级慢
 楼主| 发表于 2023-4-8 14:20 来自手机 | 显示全部楼层
ysc3839 发表于 2023-4-8 14:13
遇到问题再说,好过CPU跑超级慢

小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exception
 楼主| 发表于 2023-4-8 14:22 来自手机 | 显示全部楼层
ysc3839 发表于 2023-4-8 14:12
全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝 ...

重装了下系统 ltsc 2021 能比之前的win11稳一些,连着跑了5 6遍还没有蓝 在win11最多跑两遍必蓝
发表于 2023-4-8 14:24 | 显示全部楼层
mesh 没超?
 楼主| 发表于 2023-4-8 14:27 来自手机 | 显示全部楼层
xy. 发表于 2023-4-8 14:24
mesh 没超?

超了 3200吧 不过之前fpu cb15 20都是测试过的 没问题 就是这个小模型老是蓝。现在在ltsc2021下 早上蓝了一次 看CPU实际只用可能是比较高的,就avx降了一档offset 稳了一些
发表于 2023-4-8 14:37 来自手机 | 显示全部楼层
zzeng12 发表于 2023-4-8 14:20
小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exce ...

system service exception的话怀疑是硬盘问题
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-2 08:46 , Processed in 0.009856 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表