Резервирование
Отказоустойчивость или надежность, показатели энергопотребления, стоимость эксплуатации и регулирования температурного режима, который может быть как ручной, так и автономный, - основные показатели работы ЦОД.
Для стабильного и бесперебойного доступа к данным после построения и запуска ЦОД следующим шагом должно стать резервирование системы.
Для создания РЦОД, который будет функционировать параллельно с основным ЦОД, необходимо учитывать следующее:
- Необходимо обустроить РЦОД в части строительных и отделочных работ;
- Оборудовать РЦОД инженерной инфраструктурой с нужным уровнем отказоустойчивости системы;
- Гарантировать надежные каналы связи между ЦОД и РЦОД в необходимом количестве и с нужной пропускной способностью;
- Разработать и внедрить технические решения для бесперебойной работы критичных аппаратных комплексов, таких как система хранения и обработки данных, прикладные программные комплексы, почтовые системы, системы резервного и архивного копирования информации.
При этом резервирование основного дата-центра не предполагает только дублирование программных комплексов. Создание РЦОД подразумевает под собой возможность параллельной работы приложений и процессов в ЦОД с тем, чтобы при ситуации, когда произойдет аварийная остановка одного из ЦОД, работа системы продолжалась в безостановочном режиме. Наличие хотя бы одного нерезервированного компонента ЦОД приводит к снижению уровня отказоуйсточивости, увелечению времени простоя ЦОД, ненадежности хранения и обработки информации.
Uptime Institute выделил стандарты, в соответствии с которыми существует четыре уровня отказоустойчивости:
№ | Уровень отказоустойчивости | Время простоя ЦОД в год | Схема резервирования |
Tier 1 | 99,671 % | 28,8 часа |
Схема резервирования отсутствует (N). Ни одна из систем не резервируется и простой каждоый едицины оборудования означает простой всего ЦОД |
Tier 2 | 99,749 % | 22,0 часа |
Схема резервирования N+1. К N единицам добавляется 1 резервная, что уменьшает риски выхода из строя ЦОД. |
Tier 3 | 99,982 % | 1,6 часа |
Схема резервирования N+1 с возможностью параллельного проведения профилактических работ. |
Tier 4 | 99,995 % | 0,4 часа |
Схема резервировани 2 (N+1). Каждый элемент системы N+1 дублируется аналогичным. |
Рассмотрим каждый из уровней поподробнее.
Tier 1 - первый уровень (базовый).
Имеет один путь распределения электропритания и охлаждения. Не имеет резервированных компонентов, подвержен нарушению работы, как от плановых, так и от внеплановых действий. Ошибки при эксплуатации или самопроизводльный отказ какого-либо компонента системы вызовет нарушение нормального хода работы ЦОД.
Tier 2 - второй уровень (с резервированием).
Имеет резервированные компоненты, но только один путь для распределения электропритания и охлаждения. В отличие от Tier 1 несколько меньше подвержен нарушениям работы дата-центра. Но потребуется остановка процесса обработки данных при техническом обслуживании или ремонта критического пути электроснабжения и других частей инфраструктуры.
Tier 3 - третий уровень отказоустойчивости (с возможностью параллельного проведения профилактических работ).
Имеет несколько путей для распределения электропитания и охлаждения, но только один из них активен. Благодаря этому, техническое обслуживание ЦОД и ремонт компонентов возможен без отключения системы. Это позволяет специалистам проводить профилактическое обслуживание, заменять или добавлять компоненты, тестировать систему, проводить ремонт или удалять компоненты из системы параллельно с работающим центром обработки данных. Необходимо иметь достаточную мощность и распределительные возможности, чтобы одновременно сохранялась нагрузка на одном пути электроснабжения и охлаждения, чтобы в то же время выполнять ремонт и тестрирование на другом пути. Многие компании устанавливают ЦОД с третьим уровнем отказоустойчивости с намерением улучшить его до четверго уровня (Tier 4).
Tier 4 - четвертый уровень (отказоустойчивый).
Иммет несколько активных путей подвода электропитания и охлаждения, что приводит к более повышенной степени отказоустойчивости. Данный уровень отказоустойчивости ЦОД предусматривает возможность и способность инфраструктуры позволять любую плановую или внеплановую деятельность без нарушения нормального хода работы системы. Функционал четвертого уровня обеспечивает возможность выдержать хотя бы один внеплановый отказ без последствий для критической нагрузки. Это требует одновременную активность нескольких путей подвода рпспределения. С точки зрения электрооборудования, это означает наличие двух отдельных систем источников бесперебойного питания (ИБП), в которых каждый имеет резервирование (N+1).
" Надо учиться любить себя — любовью здоровой и святой, чтобы оставаться верным себе и не терять себя.".
Фридрих Ницше