Планирование отказа дисков

Оценить
(0 голоса)

Диски могут иметь среднее время MTBF (Mean Time Between Failure - наработки на отказ), превышающее 200000 часов (23 года) даже при круглосуточном использовании, а среднее время наработки на отказ современных дисков значительно больше. Это звучит внушительно, но это именно средний, а не гарантируемый срок службы. Кроме того, диски имеют ожидаемую эксплуатационную долговечновть, часто колеблющуюся в пределах пяти лет. При одновременном использовании 100 дисков со средним временем наработки на отказ около 200000 часов можно ожидать, что каждый диск может выходить из строя в среднем через каждые 2000 часов (3 месяца). При одновременном использовании 500 дисков следует ожидать отказа через каждые 17 дней, а при одновременном использовании 1000 дисков - почти каждую неделю. Более подробная информация представлена в таблице 17-1.

Очевидно, что чем больше дисков используется, тем чаще могут ожидаться отказы. Многие пользователи БД с 500 дисками вероятно не допустят аварийного отказа через каждые 17 дней, который приводит к значительному простою, связанному с заменой дисков и восстановлением БД с откатом-повтором. При проведении эталонного тестирования мы используем конфигурации с очень большим количеством дисков и наблюдаем эту статистику в действии. Следовательно, мы давным-давно научились выполнять необходимое резервное копирование в оперативном режиме для того, чтобы минимизировать время простоя.

Для защиты от потери данных следует использовать следующие технологии:

•             Зеркалирование дисков или RAID 5 везде, где только возможно.

•             Горячее резервирование (с подключением резерва "на ходу" без выключения электропитания).

•             Не создавать зеркальную копию на том же самом диске. Это звучит как полный идиотизм, однако на практике приходится сталкиваться с такими решениями. Причем, некоторые люди склонны прибегать к такому методу неоднократно!

•             Альтернативная маршрутизация.

Можно повысить уровень готовности, комбинируя технологию зеркалирования с hot spares (горячими резервами), то есть, специально зарезервированные диски должны "вступить в игру" и запять место диска, вышедшего из строя. Поскольку только половина зеркала является недоступной, то хорошая копия может использоваться для того, чтобы синхронизировать диск горячего резерва, восстанавливая, таким образом, полностью работоспособный набор зеркальных дисков. Оба менеджера томов-Veritas п SVM - предлагают возможность горячего резервирования дисков. Даже если горячее резервирование не определено явным образом, Veritas будет решать эту задачу автоматически с помощью демона перераспределения (vxrelocd).

RAID 5 и зеркалирование защищают от отказа самих дисков, но не от отказа контроллера, если только диски для зеркалирования не выбраны на разных контроллерах. Технология альтернативной маршрутизации использует функциональную возможность дисковых массивов фирмы Sun поддерживать подключения двух контроллеров, разрешая тем самым определить альтернативный маршрут к дискам через другой контроллер. Если один контроллер выходит из строя, то другой может использоваться приложениями без прерывания.

Альтернативная маршрутизация поддерживается на серверах Starfire и Enterprise ЕххОО, начиная с Solaris 2.6. Эта функциональная возможность также существенна для организации динамической реконфигурации, предлагаемой на системах Starfire, Enterprise Ех500 и Sun Fire. Системные платы не могут быть извлечены из системы без нарушения процесса доступа к данным, если только предварительно не был определен альтернативный маршрут к дискам.

Влияние зеркалирования на производительность
Устранение одиночных отказов
Другие проблемы, связанные с размещением данных
Переходы между низкоуровневыми устройствами и файловыми системами
Производительность технологии RAID 5 при работе с БД

Добавить комментарий


Защитный код
Обновить