找回密码
 加入我们
搜索
      
查看: 6452|回复: 30

[存储] 关于raid的观点

[复制链接]
发表于 2023-6-16 11:49 | 显示全部楼层 |阅读模式
我在本坛回复过几个帖子,意思就是家用不要组raid

这个观点的前提是:
绝大部分人没有备份数据的习惯 然后他们把raid当成备份,以为万事无忧 殊不知,这种使用方式完全违背了raid的初衷

raid虽然是提升数据可靠性的,但是并不能作为备份  
相反,如果万一发生灾难性故障,raid会让数据完全不可恢复

所以我一直的观点就是家庭不要用raid,每个盘都单独的拿出来用,然后用一块盘做备份,这是最经济的做法
比如一块盘存数据,一块盘备份  比2盘组raid1不做备份更安全,性能还没差
或者3盘,其中的2盘单独的存数据,然后1盘做备份(一般数据都不会放满,前期是可以这样的,后期数据多了再根据需要加硬盘),这比3盘raid5更安全

但是,如果大家有备份的操作,那raid属于锦上添花了,比如总共4个盘,3盘raid5,然后一个盘备份,这样安全性更上一个台阶

所以,再次重申一下观点:
数据存储,备份绝对是第一位的
备份! 备份!! 备份!!!
发表于 2023-6-16 11:51 | 显示全部楼层
默认的准则:不备份的数据都是不重要的
发表于 2023-6-16 12:04 | 显示全部楼层
本帖最后由 雨季不再来 于 2023-6-16 12:07 编辑

好吧,raid1可以部分起到实时备份的作用,一块放在一边,怎么做到实时备份?而且做raid1,不等于说不要备份啊。对于没备份习惯的人来说,有raid1肯定是好事。
发表于 2023-6-16 12:32 | 显示全部楼层
还是要看使用场景,比如我现在的一个使用场景:
好几个 VMware 虚拟机文件,落在 SSD 的 raid 1 上(raid 1 主要是预防硬件突然挂掉后的数据损失)
偶尔对某个虚拟机文件打个 zip 包出来,落在 HDD 的 raid 1 上(一个虚拟机可能就是几十G、100多G,备份的时间成本有点高)
发表于 2023-6-16 12:42 | 显示全部楼层
win的软raid1动不动就重新同步,已经被我关掉了
发表于 2023-6-16 13:09 来自手机 | 显示全部楼层
raid1也可以看做两个盘一个存数据一个拿来备份吧,只不过这个备份是实时的

点评

千万不要有这种想法 就是这种想法才导致悲剧的 2盘就老老实实的1盘数据1盘备份 raid1是为了高可用,并不是为了数据安全  发表于 2023-6-16 14:49
发表于 2023-6-16 13:20 | 显示全部楼层
其实用raid是可以的
但是要记住的是,
raid的作用是冗余,即在坏n块硬盘的时候数据还能使用
降级的时候要先拷贝出数据
发表于 2023-6-16 13:38 | 显示全部楼层
本帖最后由 ONEChoy 于 2023-6-16 13:41 编辑

本来各种raid存在的意义就是针对数据的扩展性 跟备份有根毛的关系
0扩展速度和容量1扩展在线时间和冗余56扩展最大容错同时兼顾各方面
备份也有增量压缩等等各种技术 成品nas还有快照和固态缓存这种延伸再延伸的东西 自选套餐配合食用


看着你们几个发帖子告诉别人要raid不要raid的 感觉真没必要 要科普小白去贴吧b站吧 这里不是很合适到最后又是吵吵。。。
打个比方 两份一模一样的食材调料给两个厨师 出菜可以是完全两个口味 你爱吃什么自己调就好了 管别人吃什么干嘛。。。
发表于 2023-6-16 13:48 | 显示全部楼层
RAID不只是提供 - 更大的容量、更多的吞吐量、更高的可用性,也顺便提升了数据的安全性、冗余性
发表于 2023-6-16 13:48 | 显示全部楼层
电脑上做过2次raid,然后两次后期都出现不认盘的情况, 还好 当时组raid只是用来放些不打紧的东西, 以后不会组raid了。

我也是非常赞同LZ的话,每个盘单独使用 重要数据多拿个盘备份。
发表于 2023-6-16 13:49 | 显示全部楼层
本帖最后由 MikuLuka 于 2023-6-16 13:58 编辑

一直R0火葬场的原因是因为强迫症和满足需要
早年x25-E单盘容量是真的捉急 双盘也没法用2个80G组了R0才当160G
之后M4也是上限256但是溢价太贵穷人选择了3个128R0 这时候被5200小时BUG坑了一回
之后一段时间R0是笔记本强迫症  D盘一个整数剩下给C盘,
知道现在单条1T 2TM2主流了才1块盘C 1块盘D
很多时候好多人R0跟我一样是强迫症逼的
不过R0自己做好备份就好了
我固态到现在也是只有系统 和游戏还有软件  
剩下的都归档到机械盘里了,,这是个好习惯

上面说的强迫症是这样的
WIN7时代80G的X25E 80G能发下系统但是空下来的空间很蛋疼 D盘单盘80G又不够用 不如组个R0吧
D盘100G剩下C盘
每次升级一直是这么折腾的 翻车了无数次
但是相对的C D盘数据对我来说不重要 这样折腾1是满足需求了2是后来省了点钱了
直到现在1T才是满血我就开始1TC 2TD的搞法了
固态硬盘以前一致有个满血和残血最小容量注定残血 中间容量就满血了 买2块又比买1块最大容量的便宜,这个概念一致到去年还算有用吧,直到致钛长存无缓杀出来,,,我才算告别SSD的RAID 但是存储还是R0 不然东一个18T西一个18T太蛋疼了 PT种子都存了翻车大不了重新下
发表于 2023-6-16 14:01 | 显示全部楼层
RAID的初衷在于让业务不中断,并非提高数据的安全性,backup才能保障数据的安全。至于RAID0这种基本也就家用玩玩,企业中几乎不会用RAID0.
发表于 2023-6-16 14:14 | 显示全部楼层
我没用raid,平时数据同时存3块硬盘里,除非火灾把机器烧成渣了,不然总能把数据抢救回来
发表于 2023-6-16 14:18 | 显示全部楼层
PPXG 发表于 2023-6-16 13:09
raid1也可以看做两个盘一个存数据一个拿来备份吧,只不过这个备份是实时的 ...

我就是这么认为的。  
发表于 2023-6-16 14:20 | 显示全部楼层
hasuboy 发表于 2023-6-16 14:01
RAID的初衷在于让业务不中断,并非提高数据的安全性,backup才能保障数据的安全。至于RAID0这种基本也就家 ...

万艾可的起源是想要开发出一种抗冠心病的血管扩张药物,然而......
发表于 2023-6-16 14:21 | 显示全部楼层
这种废话贴我觉得没必要发
懂的人不需要你提醒,不懂的人不会弄还是成品nas直接raid1
发表于 2023-6-16 14:22 | 显示全部楼层
ONEChoy 发表于 2023-6-16 13:38
本来各种raid存在的意义就是针对数据的扩展性 跟备份有根毛的关系
0扩展速度和容量1扩展在线 ...

问题是就有人喜欢当专家来教训他人呀
发表于 2023-6-16 14:23 | 显示全部楼层
不要教条!

殊不知,这种使用方式完全违背了raid的初衷 !   为什么不能改变这个初衷呢?


万艾可的起源是想要开发出一种抗冠心病的血管扩张药物,然而......
发表于 2023-6-16 15:03 | 显示全部楼层
这种帖每月发一次是吧?
发表于 2023-6-16 15:35 | 显示全部楼层
我的重要数据一共三块盘
2块8T组RAID 1,放NAS里一直保持在线
1块4T做冷备
发表于 2023-6-16 15:42 | 显示全部楼层
raid的初衷是给买不起大硬盘的人,用多块小硬盘组合起来模拟大容量硬盘的.后续是为了解决高可用的问题. 两个raid组定时同步还能叫备份
发表于 2023-6-16 16:42 | 显示全部楼层
我只能说大概lz的意思是家用千万不要用raid5,除非是想给自己找折腾,
发表于 2023-6-16 18:39 | 显示全部楼层
raid主要是作用就是高可用或高性能,如果把raid的副本或ec当成临时备份问题也不大,但同一批盘非人为因素挂掉一块另外一块也不远了。
自己用的raid1,重要的数据同步到另外一个盘里,相当于重要的数据实时在线3份。
发表于 2023-6-16 18:48 来自手机 | 显示全部楼层
真成论坛月经贴了
发表于 2023-6-16 18:58 | 显示全部楼层
确实,手动raid1最靠谱
发表于 2023-6-17 02:44 | 显示全部楼层
月经贴,人们只是对自己不熟悉的东西感到恐惧而已,在你眼里觉得raid1不可恢复,所以两单盘更安全,但在有些人包括我眼里raid1和两单盘没太大区别,故障都可以恢复数据,那我为啥要用更麻烦的两单盘呢
发表于 2023-6-17 02:56 | 显示全部楼层
本帖最后由 qq2348227 于 2023-6-17 03:04 编辑

冷备才是王道

不考虑火灾、地震、泥石流、海啸、核辐射、偷盗 等需要异地备份

冷备才是王道,特别重要的要 一式三份,再辅以光盘刻录形式

online 不可靠。网盘就算收费的,我也不信任。

online 可能有概率遇到 勒索加密

可能遇到 硬盘 静默写错误。腾讯就发生过一个案例。是硬盘厂家的责任。所以,要买企业盘。

腾讯云回应称,前沿数控所遇情况是因受所在物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

腾讯云表示,经过分析,该硬盘静默错误是在极小概率下被触发。“我们随即对固件版本有bug的硬盘全部进行下线处理,确保相关隐患全部排除。”

转:https://zhuanlan.zhihu.com/p/42064768

首先说说什么叫“磁盘静默错误”。总所周知,磁盘是靠磁颗粒的状态来记录信息的,当遇到外界物理环境突然改变时,的确是会出现磁记录突变的情况,也就是说,原先记录的是0,忽然变成1了,这叫做“位腐”(英文叫bit rot)。位腐是一种常见的现象,毕竟0和1这两种逻辑表示最终是需要存储在物理介质上的,只要是物理的,就有可能被破坏,因此位腐是不可避免、不可忽视的。腾讯云管它叫“静默错误”,笔者认为更贴切,因为即使介质摆在那一动不动,也会因为各种物理原因导致记录的0或1发生了突变。

但磁盘就应该为此背锅吗?如果连这个问题都不能解决,磁盘厂家还能“堂而皇之”的卖几十年的磁盘吗?实际上磁盘在写入数据的时候不仅仅写入数据本身,还会顺便把数据的校验值也一并写入磁盘,并立即读出来做一次校验,以确保数据的确被正确的写入介质,至此写操作才算成功。当日后需要读取数据时,磁盘也会顺便把校验值读出来进行校验,而且只有通过校验的数据才算读取成功,如果校验失败,磁盘会不断的重试直到读取成功或超过最大重试次数而报错。所以,当磁盘出现坏道的时候,我们感觉到的是“读变得很慢”,那是因为磁盘在不断的重试。换句话说,你根本不可能从磁盘里读到错误的数据,因为磁盘的设计决定了要么你读到正确的数据,要么读数据失败。如果读到了“错误”的数据,那一定是你之前写的数据本身是错误的。这个锅不能让磁盘厂家背!

有人会说,有没有可能是磁盘的bug?理论上当然不能排除这种可能,但是实际上几乎不可能。数据校验是磁盘最最基本的功能,这部分逻辑一般是不会变的,即使有变也会严格测试(也很容易测试),否则天下大乱。因此笔者更愿意相信是腾讯云犯了错误,即:写入磁盘的数据本身就是错的。但有人会问,确保数据写入正确难道不是云存储最基础的工作吗?腾讯云会犯这么低级的错误吗?

是的,数据写入正确的确是云存储最基础的工作(没有之一),但是如果没有足够的存储研发经验,是很容易“踩坑”的。坦率的说,笔者所领导的团队就曾经踩过这样的坑,而且一开始怎么查也查不出根因,只能用粗暴的方法来绕开这个bug。直到很久以后笔者才从一位国外的高人John Hufferd(貌似是iSCSI规范起草的协调人)那里找到了根因。找到根因的一瞬间有两个感觉,一个是非常兴奋,另一个则是不得不承认有些东西光靠天生聪明是不够的,还是需要经验积累的,没有踩过坑、碰过钉子说明还没遇到真正的技术壁垒。所以,笔者不是故意向腾讯云泼脏水,而是笔者认为,从工业级存储经验来讲,磁盘厂家的经验要远远多于国内的互联网公司,所以这个bug发生在磁盘厂家身上的概率是非常低的,大概率是腾讯云自身的错误,即腾讯云写入的数据本身就是错误的。但是笔者也相信,经过这个事故,腾讯云存储应该也发现了一个隐藏很深的bug了,这对于腾讯云存储来说是个好事。

其次是违规运维操作——关闭数据校验进行迁移。这里暴露出一个严重的问题:运维人员居然有权关闭数据校验?!作为一个成熟的云存储系统,数据的迁移应该是作为产品固有功能的一部分,校验应是一个内置的必选项,运维人员只需要决定什么时候迁移、从哪里迁移到哪里即可。即使不那么成熟,也不至于让运维人员有权限来关闭数据校验以加速搬迁任务。这说明腾讯云存储的产品度非常不高,以至于连运维人员都可以如此草率的做出如此危险的举动。您还相信腾讯云有严格的流程来防止运维人员访问用户的数据吗?

牛皮可吹,但事情必须办好。

最后,笔者要恭喜腾讯云又获得了一次改进产品的机会,但同时也提醒所有云存储的潜在用户:腾讯云还不成熟,最好再等2年。
发表于 2023-6-17 03:03 | 显示全部楼层
日经贴又来上课了。。。
发表于 2023-6-17 03:17 | 显示全部楼层
时间久远,我忘记一个 硬盘特性了~

就是 企业盘 还是 sas盘,比 普通家用盘  多一个 ,好像是组 raid 的校验特性

常规普通 hdd 硬盘没有这个技术

但是,这个 关键字 技术,我忘记了。

还请 资深达人,说壹说,在我大脑里失忆了。
发表于 2023-6-17 04:44 | 显示全部楼层
本帖最后由 qq2348227 于 2023-6-17 05:15 编辑
qq2348227 发表于 2023-6-17 03:17
时间久远,我忘记一个 硬盘特性了~

就是 企业盘 还是 sas盘,比 普通家用盘  多一个 ,好像是组 raid 的校 ...


找了几个小时,终于找到了

硬盘参数之TLER
“你们根本不知道nas盘是用来干啥的,准确的说,要nas盘就是要tler技术,这样才适合用在nas上。 TLER=Time-Limited Error Recovery 这么说吧,普通的硬盘(不带TLER),如果读到一个数据块读不出来,就会尝试连续读取这个数据块30秒-1分钟,再读不出来,就标记这个数据块为坏道,封存再也不用。在这30秒-1分钟的尝试读取时间内,硬盘对于外界属于无响应的情况,这就是你有时候打开资源管理器却显示失去响应的原因。而大部分硬件raid阵列系统,在硬盘失去响应3-5秒后,就会判定此硬盘故障,将其从阵列中踢出去。这样的话,明明一个只是有小坏道的硬盘,却因为在30秒-1分钟的尝试时间内失去响应,被阵列踢出。重建阵列的麻烦不说,而且在重建期间如果有盘真的坏了,你的数据就悲剧了。 所以nas专用硬盘、企业级硬盘都有TLER,TLER的作用就是:当硬盘读到一个数据块读不出来,只是尝试读取3-5秒(这个时间限制可以在固件里设置的),再读不出来就立刻标记此区块为坏道,并向raid阵列报告,从其他冗余盘中读取数据重建这一小部分的阵列数据。TLER大大降低了raid阵列的掉盘率,提高了可靠性和稳定性,任何硬件nas都必须配备TLER的硬盘。 总结2句话: 1、带TLER的nas西数红盘,绝对不能用在普通桌面电脑上,包括主板自带的raid阵列上。因为桌面电脑和主板自带阵列不支持TLER,你的数据在尝试读取3秒不成功后就会被标记失败。 2、在硬件nas,比如阵列卡,或者专用集成nas(synology之类的),一定要有带TLER的硬盘。不然可靠性会大打折扣。”

https://zhuanlan.zhihu.com/p/568546186

https://www.nxssd.com/17841.html

https://www.pceva.com.cn/article-1311-4.html

其实在正常运行中掉盘率真的很低,但开关机会极大的放大这个问题。所以非专业盘不要在工作电脑上组raid5。而nas之类24小时工作的,两者没有大的区别。

打开有TLER的硬盘在检测到本次错误校正无法在7秒钟之内完成的话,会在每个第7秒的时刻向RAID控制器(阵列卡)发出信息宣示它的存在,RAID控制器就能够在8秒的阈值检测到这个物理驱动器仍然在线,从而不会将其卸载掉,RAID卷也就不会损坏,系统停掉以及冗长的RAID卷恢复动作也就不会发生。


7秒的心跳包反馈
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-4 12:55 , Processed in 0.013394 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表