如何预知固态硬盘SSD寿命快到了?

机械硬盘可以从反应速度大致判断,但SSD呢?
已邀请:

auroralinan - Machine Learning, Python, PPT.

推荐来自: Joey 離娮 张沇 野鹤 ufo5260987423 依农 戴子君 千古留名 onesaojie更多 »

更新:刚好看到一篇关于谷歌使用SSD经验的文章:SSD reliability in the real world: Google's experience
毕竟人家有钱有机房,就是任性。


Millions of drive days over 6 years
10 different drive models
3 different flash types: MLC, eMLC and SLC
Enterprise and consumer drives



KEY CONCLUSIONS

Ignore Uncorrectable Bit Error Rate (UBER) specs. A meaningless number.
Good news: Raw Bit Error Rate (RBER) increases slower than expected from wearout and is not correlated with UBER or other failures.
High-end SLC drives are no more reliable that MLC drives.
Bad news: SSDs fail at a lower rate than disks, but UBER rate is higher (see below for what this means).
SSD age, not usage, affects reliability.
Bad blocks in new SSDs are common, and drives with a large number of bad blocks are much more likely to lose hundreds of other blocks, most likely due to die or chip failure.
30-80 percent of SSDs develop at least one bad block and 2-7 percent develop at least one bad chip in the first four years of deployment.


无视不可修复的错误率,这是个没有意义的参数。
原始单元错误率(Raw Bit Error Rate)(求正式翻译)在使用中比想象中上升得更慢,并且它与不可修复的错误率的上升及其他错误无关。
牛逼的SLC颗粒并不必MLC更可靠。
坏消息:SSD损坏的比例比硬盘(HDD)小,但不可修复的错误率更大。
SSD自身的年龄(不是使用量)会影响可靠性。
坏块在新SSD中是很常见的,那些有很多坏块的SSD会更容易产生更加大量的坏块,这是最可能导致SSD死亡或坏片的。
在使用的头四年里,30~80%的SSD都产生了至少一个坏块,2~7%的SSD产生了至少一个坏片(不清楚正式翻译,即整个闪存块损坏)。
 
由于SSD的不可修复错误率比HDD更高,备份SSD的数据会相比HDD更加重要!
 
---------------------------------------------
 固态硬盘寿命测试一年半
 
上文展示了几块SSD在长时间大量读写下的测试。
 
总结一下:
大量读写擦除并不会使SSD的性能产生明显变化。
大量读写可能会导致SSD产生坏块,但由于一般SSD都留有余量,SSD会自行重新分配扇区屏蔽掉坏块,所以容量和速度还是不会有太大变化,但坏块产生无疑是SSD寿命减少的一个明显标志,另外可以通过查看重新分配扇区的数目来了解SSD的寿命。
S.M.A.R.T健康度可以从一定程度上反映SSD的寿命情况,但距离SSD的实际寿命仍有不少距离。


事实上,真正指示寿命的并非闪存颗粒完整性,而是损耗指数(MWI)。



该指数在出厂时为100,最终为0时耗尽寿命。


在测试的几款SSD中,倒下的SSD读写至少都超过了700TB。使用TLC的三星840并不是第一个倒下的,所以不要迷信闪存颗粒,实际寿命跟主控和算法还是有很大关系。


再看另一个重要参数:不可修复错误。


并不太理解这个参数的意义,从例子来看是会导致数据文件出错,导致大文件HASH失败,即文件本身有一部分损坏。


直到最后时刻,失败的固态硬盘才出现些许性能波动,这证明一款固态硬盘完全可以在整个生命周期内维持良好的性能。



固态硬盘对掉电是很敏感的,比机械硬盘更敏感,而除了极少数产品之外,消费级固态硬盘都不支持掉电保护,所以一定要尽量确保供电的稳定性,而且系统不要闲置太久,时不时得热热身。


最后几块硬盘的死法都不完全一样,SSD没有一种人可以直接体会到的检测寿命降低的方法(等出现系统错误的时候基本上马上就要死亡了),而且甚至常常能够超越检测软件的数据超龄服役。
 
另外,闪存颗粒往往存在体质问题,小规模的测试往往偏差很大。

要回答问题请先登录注册