找回密码
 加入我们
搜索
      
查看: 6317|回复: 20

[内存] linus内存默频使用2.5年挂掉,生产环境仍需ECC

[复制链接]
发表于 2022-10-14 21:18 | 显示全部楼层 |阅读模式
两年前我们 报道 过,Linus Torvalds 攒了一台新电脑,一晃两年半过去了,如今,这台电脑的内存条坏了,频繁出现机器不稳定甚至编译器损坏的情况。当时,Torvalds 本来想买 ECC 内存,但是又嫌太贵,于是买了 4 条便宜的 16GB DDR4-2666 的内存。目前,Torvalds 使用他外出携带的 MacBook Pro 工作,但是拖慢了他的工作进度。他说,“我正在我的笔记本电脑上进行合并(非常缓慢),同时在等待新的 ECC 内存条的到来。”。

他排查的时候开始还以为新内核有bug,编译不稳定才会这问题,后来回滚旧内核还出错才怀疑硬件问题,用memtest 86+跑了一整晚。

参考: v2ex讨论: https://v2ex.com/t/886003
           英文报道:https://www.theregister.com/2022 ... ds_ecc_memory_fail/
           linus亲笔邮件:https://lkml.iu.edu/hypermail/linux/kernel/2210.1/00691.html
           两年前装的硬件:https://tech.sina.com.cn/digi/20 ... rcuyvi5959172.shtml

引申1. 两年前各部件都有品牌,什么猫头鹰,Be quiet,大雕都蹭到流量,最受伤的自然是蓝厂,被直接除名了。但内存品牌未知,如果知道是哪家,另外两家水军可以起个标题“震惊!xx内存仅用两年就损坏,linux kernel 6.1发布或推迟,间接造成经济损失xx亿美元,影响人类文明进步”

引申2. Torvalds也不是没钱,Redhat(IBM)给的股票都有150亿,但还是没交ecc内存的智商税,说明越是懂行的大佬越是精打细算,基本不会乱花钱,在全球最重要生产力项目上用非ecc内存干了2.5年,要是不出问题,他估计还能用下去。

引申3. 镁光/三星/海力士市场部门就不会免费赞助一下吗?4条Jedec 3200mhz条子的成本不比电视广告给力多了,想当年这线撕一换,AMD那是倍有面子。

引申4. 生产力平台仍需ECC,防止出错了都不知道如何排查。就连最懂内核之一的大佬都无法第一时间怀疑内存,还得逐个排查之前万一在硬盘上产生的错误文件,那必然费时间,普通人就没辙了。
发表于 2022-10-14 21:19 | 显示全部楼层
我在蛆家看的标题是他的AMD主机坏了
 楼主| 发表于 2022-10-14 21:22 | 显示全部楼层
本帖最后由 T.JOHN 于 2022-10-14 21:26 编辑
叶子烟 发表于 2022-10-14 21:19
我在蛆家看的标题是他的AMD主机坏了


疽家编辑你懂的,他这封邮件可不算短了。里面那么多字连covid都出现了,愣是没有amd三个字,你说怎么能联系上amd的?倒是最后一句话又diss了一遍某厂把ecc功能特殊化
发表于 2022-10-14 21:35 | 显示全部楼层
他的工作涉及到频繁的serde,应该要用ecc。
发表于 2022-10-14 21:43 | 显示全部楼层
虽然和帖子没什么关系,不过我确实用坏过两条内存
cpu也有两个坏的,一个8700qs一个g6900赛扬
发表于 2022-10-14 22:01 | 显示全部楼层
内存jd换新了
发表于 2022-10-14 22:02 | 显示全部楼层
我也坏过内存
发表于 2022-10-14 22:06 | 显示全部楼层
镁光/三星/海力士市场部门就不会免费赞助一下吗

人家要是接受赞助, 之前配电脑的时候早就接受了, 还用等用坏了
发表于 2022-10-14 22:09 | 显示全部楼层
我前段时间也用坏过内存,不过是D3的,随整机一起算保修的,已经过保了。。
发表于 2022-10-14 22:34 | 显示全部楼层
坏过一条,几个月就暴毙了,直接开不了机
发表于 2022-10-14 22:43 | 显示全部楼层
D3内存我也遇到坏了
不过发现是内存基板存在污物
猜测是上家不留神溅了茶渍还是咖啡渍在上面
结果到我手里就出问题了
发表于 2022-10-14 22:44 来自手机 | 显示全部楼层
多亏linus懂电脑知道测内存,这种问题要是出在泥潭那又是一口一个amd不稳定
发表于 2022-10-14 23:44 | 显示全部楼层
前几天自己给朋友帮组的PC突发开不了机,前一晚喝大了踹了一脚,我还以为把显卡PCIE槽踹烂了导致显示器无输出。后来看自检灯发现是内存自检报错,橡皮擦大法和交换通道以及单根开机都试过均不行,jd换了一套后顺利开机。我现在都难以理解简单一脚是怎么把内存踹烂了。
发表于 2022-10-15 00:00 来自手机 | 显示全部楼层
坛子里人均持有的设备完爆全球最重要生产力项目的使用设备
发表于 2022-10-15 00:19 来自手机 | 显示全部楼层
去年我15年买的两根渣渣金士顿2133也挂了,两根一起,跑去jd换货换了两根3200回来
发表于 2022-10-15 00:54 | 显示全部楼层
AMD市场部机灵点,赞助一套5995WX+WRX80+1TB内存不就得了
发表于 2022-10-20 11:45 | 显示全部楼层
我见的ecc坏的也不少,就是坏了好定位吧。
发表于 2022-10-20 11:47 | 显示全部楼层
这种带佬随便说一句,各个主机厂还不拉满送上去啊
发表于 2022-10-20 11:56 | 显示全部楼层
前段时间刚用坏一条内存
发表于 2022-10-20 12:04 | 显示全部楼层
你们才一条 我返修的内存有20多条
发表于 2022-10-20 12:18 | 显示全部楼层
ecc也会挂得 但是ECC不稳定   在控制台会有报错
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-22 23:31 , Processed in 0.010739 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表