谈谈闪存的一些特点,或者说它作为存储介质面临的挑战。

NAND Flash 目前存在的主要问题:

闪存块(Block)具有一定的寿命,不是长生不老的。前面提到,当一个闪存块接近或者超出其最大擦写次数时,可能导致存储单元的永久性损伤,不能再使用。随着闪存工艺不断向前,这个擦写次数也变得越来越小。

图1-1 闪存损坏状态

1、闪存先天有坏块

也就是说有出厂坏块。并且,用户在使用的时候,也会新添坏块,所以用户在使用闪存的时候,必须有坏块管理机制。
在闪存当中的存储单元中,先天就有一些是坏掉的,或者说不稳定的。并且随着闪存的不断使用,坏的存储单元越来越多。所以,用户写入到闪存的数据,必须有ECC纠错码保护,这样即使其中的一些比特发生反转,读取的时候也能通过ECC纠正过来。一旦出错的比特超过纠错能力范围,数据就丢失,对这样的闪存块,我们应该废弃不再使用

2、读干扰(Read Disturb)

什么意思?从闪存读取原理来看,当你读取一个闪存页(Page)的时候,闪存块当中未被选取的闪存页控制极都会加一个正电压,以保证未被选中的MOS管是导通的。这样问题就来了,频繁的在一个MOS管控制极加正电压,就可能导致电子被吸进浮栅极形成轻微的写,从而最终导致比特翻转。但是,这个不是永久性损伤,重新擦除闪存块还能正常使用。注意的是,读干扰影响的是同一个闪存块中的其它闪存页,而非读取的闪存页本身。

图1-2 读干扰原理

Eastar: 中间绿色区域为读取的页,低电平有效,两侧为非读页;

3、写干扰(Program Disturb)

除了读干扰会导致比特翻转,写干扰也会导致比特翻转。还是要回到闪存内部的写原理上来。

图1-3 写干扰原理

我们写一个闪存页的时候,数据是0和1混合的。由于对擦除过的闪存块,其所有的存储单元初始值就是1,所以写的时候,只有写0的时候才真正需要写。如图3-48所示,方框里的单元是写0,需要写的,圆圈里的单元的代表写1,并不需要写操作。我们这里把方框里的单元称之为Programmed Cells,圆圈里的单元叫Stressed Cells。写某个闪存页的时候,我们是在其 WordLine的控制极加一个正电压(图3-48是20V)。对于Programmed Cells所在的String,它是接地的;不需要写的单元所在的String,它是接一正电压(图3-48为10V)。这样最终产生的后果是,Stressed Cell也会被轻微写。与读干扰不同的是,写干扰影响的不仅是同一个闪存块当中的其它闪存页,自身闪存页也受影响。相同的是,都是不期望的轻微写导致比特翻转,都属于非永久性损伤,经擦除后,闪存块还能再次使用

4、存储单元之间的耦合影响(Cell-to-Cell interference)

前面提到,浮栅极闪存存储电荷的是导体,因此存储单元之间存在耦合电容,导致存储单元内的电荷发生意外变化,最终导致数据读取错误;

5、电荷泄漏

存储在闪存存储单元的电荷,如果长期不使用,会发生电荷泄漏。同样是非永久性损伤,擦除后闪存块还能使用。

6、EC(erase count)

擦写的次数多了会使浮栅极下面的绝缘层(Tunnel氧化物)变薄,最终导致永久性损伤。

上面说的这些,是所有闪存面临的问题,包括SLC,MLC和TLC,这些问题的处理方法,在后面的FTL章节会进行介绍。不同商家的闪存,不同制成的闪存,以及2D/3D闪存,还有其特有的问题,用户在使用时需要用固件克服或者缓解这些问题。

NAND Flash 的寿命

我们大家生活在人间,祖祖辈辈和周围观察到的生灵告诉我们一个道理:所有的人和生物都不能像神仙一样长生不老。其实不只是生物,所有的存储器件都是有寿命的。

图1-4 SLC电压分布(来源:Inside NAND Flash Memory)

我们再来看图1-4 这张0和1的分布图,横轴是电压,纵轴是存储单元的数量。0的区域表示被写过的那些单元电压分布区间,1的区域是被擦过的那些单元电压分布区间。所以说,如果要正确地读到数据,0和1这两个区间要尽量分割清楚,保证它们的主峰有足够远的距离。

除了0和1靠近之外,阈值电压也不能太偏。回忆一下读数据的原理:

图1-5 读操作电压示例

要读的单元栅极加 0V 电压(低电平有效),这时擦过的晶体管阈值电压是VT-V_T,导通,沟道有电流,Bitline端的传感器能够检测到,读到“1”。而经过写的晶体管阈值电压是+VT+V_T,不导通,沟道电流很小,读为“0”。
随着擦写次数的增加,会发生三种故障:
1、擦过的晶体管阈值电压变大,从VT-V_T向0V靠近,这样读的时候沟道电流变小,传感器检测不到,读出错;
2、写过的晶体管阈值电压变小,从+VT+V_T向0V靠近,有可能会被误检测为擦过的状态;
3、写过的晶体管阈值电压变大(如图1-5,>5V,即使控制极加5V电压,它也是截止的),有可能在其他的单元读的时候,把整个Bitline都给关了,一个死苍蝇害了一锅粥;

浮栅晶体管对浮栅极下面的绝缘层(Tunnel氧化物)很敏感,该氧化物厚度变薄(制程不断减小导致的)或者老化(Degradation,擦写次数多了)对浮栅极里面的电荷影响大。我们之前介绍了Charge Trap晶体管,其实随着擦写次数增多,浮栅晶体管的氧化层渐渐老化,产生不少Charge Trap,这些陷阱会吃掉电子。导致写之后,进入浮栅的电子数量会减少,最终的结局就是0和1两个区间不断靠近。

如下图1-6,上面的线是写后的阈值电压,下面的线是擦除后的阈值电压,很明显,擦除后的阈值电压在擦很多次之后显著变高。所以,一般擦除之后会做校验,方法是把所有的Wordline设为0V,再去检测每个Bitline的电流。如果某个Bitline电流是0,就意味着有个单元的擦除阈值电压接近0V,导致晶体管关断。所以这个闪存块应该标为坏块。

图1-6 阈值电压变化图(来源:Inside NAND Flash Memory)

来源:
1、 http://www.ssdfans.com
2、 选自《深入浅出SSD:固态存储核心技术、原理与实战》一书;