Опыт массовой эксплуатации твердотельных накопителей

Миллионы накопителей SSD покупают каждый год организации и отдельные пользователи для быстрой загрузки операционной системы и ускоренного запуска программ. Но какова надежность этих электронных устройств хранения? Лучше всего обратиться к опыту эксплуатации накопителей SSD в центрах обработки данных.

Именно такое масштабное исследование неисправностей устройств хранения на основе флэш-памяти во время реальной эксплуатации (Flash Memory Failures in the Field) проведено университетом Карнеги-Меллон (Carnegie Mellon University) вместе с компанией Facebook. Именно эта компания стала первой из перешедших на SSD в своих серверах, для чего использовалась продукция Fusion-io (до сих пор остается основным поставщиком накопителе PCIe SSD для Facebook). В компании Facebook накоплен богатый опыт использования SSD в течение миллионов машино-часов (причем одновременно применяются SSD-накопители компаний Hitachi, Intel, OCZ, Seagate и Virident).

Цель исследования: «Серверы с флэш-памятью в виде SSD (solid state drive, твердотельные или – лучше – полупроводниковые накопители) являются высокопроизводительной альтернативой накопителям на жестких дисках для длительного хранения данных. К сожалению, недавнее увеличение плотности флэш-ячеек памяти также привело к снижению надежности на уровне микросхем. В центрах обработки данных неисправности флэш-накопителей SSD могут привести к простоям и, в худшем случае, к потере данных. Поэтому важно знать характеристики надежности флэш-памяти на протяжении ее срока службы, полученные по реальным производственным данным эксплуатации оборудования для современных приложений и системного программного обеспечения».

В университетском исследовании накопители SSD классифицируются не по изготовителю, а по году выпуска, т.е. грубо говоря, делятся на два поколения. Неисправностью считается неустранимая ошибка чтения URE (uncorrectable read error), приводящая к потере данных. Она не означает отказ всего накопителя, но увеличение числа ошибок URE ведет, прежде всего, к снижению пропускной способности (из-за необходимости восстановления ошибки в данных при чтении по резервной информации), затем к более вероятному отказу всего накопителя. Компания Facebook предпочитает корпоративные модели с максимальной емкостью, которая в последнем поколении достигает 3,2 TБ для накопителей с весьма высоким сроком службы. Кроме того, большая часть неисправностей в накопителях SSD остается внутренними ошибками и устраняется за счет дополнительной информации за счет коррекции одиночных ошибок контроллером SSD, поэтому в отчет попали только ошибки URE, зарегистрированные сервером вне накопителя, т.е. внешние ошибки чтения. Такие ошибки обычно устраняются на уровне сервера, поэтому не влияют на работу всей серверной стойки и центра обработки данных.

Получены интересные результаты:

1. Накопители SSD весьма чувствительны к температуре, гораздо больше накопителей на жестких дисках. При повышении температуры падают характеристики SSD вплоть до неожиданного отключения сервера.

2. Накопители SSD отличаются достаточно высокой потребляемой мощностью, например для PCIe v2 SSD требуется от 8 до 14,5 ватт, причем потребляемая мощность напрямую связана с уровнем неисправностей.

3. Накопители SSD показали ускоренное старение при записи (Write fatigue). Уровень операций записи напрямую коррелирует с уровнем неисправностей (что объясняется спецификой блочной записи в ячейки флэш-памяти), поэтому для приложений с высокой нагрузкой по записи информации (например, при регистрации данных в реальном времени) лучше выбрать жесткие диски (при прочих равных условиях, поскольку даже небольшая вибрация просто выключает накопитель на жестких дисках, но SSD продолжит работу в этих условиях, прим. перев.).

4. Неисправности SSD – ошибки URE – происходят достаточно часто: от 4,2 до 34,1% накопителей SSD показали неустранимые ошибки. По сути, 99,8% накопителей SSD показали одну ошибку URE один раз в неделю.

Уровень ошибок на протяжении срока службы:
Opit-ekspluatazii-tverdotelnich-nakopiteley-1

По вертикали – уровень ошибок твердотельных накопителей SSD, по горизонтали – использование флэш-памяти (т.е. объем операций с накопителем). На первом (начальном) этапе эксплуатации идет выявление неисправных ячеек и изъятие их из рабочего процесса (они заменяются резервными страницами памяти внутренним контроллером), затем надежность повышается (уровень ошибок снижается), но далее начинаются обычные процессы старения (износа).

Итоговая таблица числовых результатов:

Opit-ekspluatazii-tverdotelnich-nakopiteley-2

Platform = аппаратная платформа (модель сервера)
SSDs = количество накопителей на платформе
PCIe = версия интерфейсного протокола этих накопителей и количество магистралей
Capacity = емкость в ГБ и ТБ
Age (years) = срок эксплуатации в годах
Data written = объем записанных данных за срок эксплуатации в ТБ
Data read = объем считанных данных за срок эксплуатации в ТБ
UBER = uncorrectable bit error rate (уровень неустранимых битовых ошибок)

Источник:
http://www.zdnet.com/article/facebooks-ssd-experience
http://users.ece.cmu.edu/~omutlu/pub/flash-memory-failures-in-the-field-at-facebook_sigmetrics15.pdf
Фото: flickr.com

Интересные записи