找回密码
 加入我们
搜索
      
楼主: imluvian

[内存] ECC和非ECC内存,稳定性到底相差多少?

[复制链接]
发表于 2022-10-8 10:27 | 显示全部楼层
ECC只不过多一颗检验 真要得上REG REG热的一批 ECC D5就是了
发表于 2022-10-8 10:47 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2022-10-8 11:09 | 显示全部楼层
finalx 发表于 2022-10-8 10:47
家用服务器,每三天定时从启动一下就行了。

握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。
发表于 2022-10-8 11:37 | 显示全部楼层
yargee 发表于 2022-10-7 00:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

专业
发表于 2022-10-8 22:17 | 显示全部楼层
wuya2357 发表于 2022-10-8 08:59
服务器内存出问题概率跟家用可比性不大。服务器满插内存的压力不低。以前X99 e5v3时,开鸡血单路满插ddr4 6 ...

没有ECC内存的nas,是需要软件层面来做纠错的,或者一些nas干脆就不做了,数据坏了就坏了。
发表于 2022-10-8 22:55 | 显示全部楼层
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的?
发表于 2022-10-10 17:23 | 显示全部楼层
ztwindwalker 发表于 2022-10-8 22:55
您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的 ...

关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作,An In-Depth Study of Correlated Failures in Production SSD-Based Data Centers,你可以看看。

不过感觉如果具体到你这个问题,关心不同颗粒可靠性的,和关心数据中心应用可靠性的,可能是两批人,所以可能没有个详细的答案。
发表于 2022-10-10 17:44 | 显示全部楼层
blacksnoopy 发表于 2022-10-7 19:35
其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓 ...

普通内存条跑jedec时序也很稳啦
发表于 2022-10-10 17:59 | 显示全部楼层
我的工作站15年至今没重装过系统,天天干活,机械设计和仿真,基本不关机,只是长假关机,从来没有过蓝屏死机闪退无响应报错等情况,我认为这里有ecc的作用,当然也有其他因素的作用,比如志强用默频,显卡用quadro,主板用料足,电源质量好,软件用正版,内网不中毒
发表于 2022-10-10 18:11 | 显示全部楼层
首先问你多久关一次机 一年以下 就没必要
发表于 2022-10-10 19:35 | 显示全部楼层
内存中出现错误位 bit 的原因是多样的,比如:内存颗粒/硬件本身品质、超频、传输过程的 EMI 电磁干扰 等等......

即使同一条内存,放在不同的使用场景中可能出现位翻转的机率也是不同的,比如在大型的数据中心 EMI 的情况比家中要高,或者家住在 EMI 相对严重的地方;另外,像银行数据中心、天猫/京东这种需求场景,和家里码段代码、下载机、开几台服务器这种也都完全不是一个级别的。或者换句话说,即使在阿里数据中心能偶尔检测到 ECC 错误的内存条,换到我家用服务器上也许 2~3 年都不报一次错也不奇怪

所以,抛开使用场景一味地强调 ECC 的重要性是没有道理的,我自己目前服役了 8 年的家用服务器就 2条普通内存,日常 7x24 开三台虚拟机,我印象中就没有一次因为内存的原因造成过任何数据上的问题,所以,对我来讲,上 ECC 也就是心理安慰一下,毕竟之前 8 年都这么过来了。

不过,若两者价格差不太多,而自己又有心理洁癖的,那该上 ECC 就上吧。
发表于 2022-10-10 21:23 | 显示全部楼层
均热板赛高 发表于 2022-10-10 17:44
普通内存条跑jedec时序也很稳啦

像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个很大原因也跟内存ecc校验机制有关,
发表于 2022-10-10 21:35 | 显示全部楼层
blacksnoopy 发表于 2022-10-10 21:23
像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个 ...

你说的现象是正解,普通机器开几天就会卡。
发表于 2022-10-10 22:06 | 显示全部楼层
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

这个是片内ECC,主要是解决高频带来的可能出现的错误问题,跟ECC还是有差别的,可以去看相关科普的视频。
发表于 2022-10-10 22:08 | 显示全部楼层
rendezvous 发表于 2022-10-8 11:09
握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。 ...

是的,我是1个月重启一次,X86的爱快
发表于 2022-10-10 22:23 | 显示全部楼层
纯ECC似乎很少见吧,ECC-REG现在普通主板能用么?好久不研究了
发表于 2022-10-11 01:27 来自手机 | 显示全部楼层
yargee 发表于 2022-10-10 17:23
关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作, ...

谢谢回复!
发表于 2022-10-11 10:21 | 显示全部楼层
有大佬推荐下DDR5 纯ECC型号吗,国内TB 黄鱼都搜不到
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-22 17:29 , Processed in 0.010545 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表