Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр

Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр Сертификаты

Главное, что нужно знать про цод уровня tier iv:

  • Объект предоставляет максимальные показатели отказоустойчивости на сегодняшний день. Все работы и ремонт происходят без прерывания услуг;
  • Система использует резервирование для каждого компонента, которые также дублируются;
  • Применение секционирования – физической изоляции компонентов инфраструктурных систем для независимой работы каждой из них;
  • Показатель безотказной работы составляет 99,995%.

Дата-центры уровня IV подойдут для организаций с критически важными сервисами, для которых непозволителен простой. На сегодняшний день в России дата-центры такого уровня находятся в зачаточном состоянии. Во-первых, строительство и реализация объекта данного класса стоит огромных средств, что обязательно скажется и на стоимости конечных услуг.

Что вообще проверяют на сертификации

  • Рабочую нагрузку на персонал. Например, у нас достаточно долго шерстили рабочие графики диспетчеров, чтобы каждый из них вырабатывал не больше, чем положено по ТК для такой должности. Сверяли каждую смену, росписи в журналах (что именно этот человек был в смене) и потом считали помесячную наработку.
  • Знание аварийных процедур (кто и что делает).
  • Соответствие всяких формальных сертификатов, дипломов и так далее занимаемым должностям. Кто отвечает за пожарку, за первую помощь и т.п. — актуальность знаний.
  • Должностные инструкции и их актуальность, описание всех процессов и процедур, инструкции на каждый случай.
  • Процедуры проверки оборудования и вообще обслуживания — чтобы все инструкции точно соблюдались и охватывали нужные процессы под конкретный объект. В нашем случае — чтобы все инструкции соответствовали фактическому расположению агрегатов и охватывали все ситуации. Процедуры открытия-закрытия смен, внесение данных об оборудовании, процедуры тестирования и т.п.
  • Как идёт обучение персонала и как проводятся регулярные тренировки по аварийным ситуациям.
  • Как обновляется внутренняя библиотека с «опытом эксплуатации», как устроены процессы расширения по питанию, охлаждению, как выносится-заносится оборудование и т.п.

В нашей ситуации больше всего ковыряли данные по персоналу и журналы смен. На этой сертификации к технике прикасаются по минимуму — предполагается, что всё было сделано на стадии получения сертификата Facility.

Что же это такое

Как Вы уже поняли, дата-центр, — это специализированные помещения. Точнее, — это специализированное здание с помещениями. Точнее, — это специализированная территория со всеми необходимыми коммуникациями инфраструктурой помещениями, способная не просто вместить (хранить) в себя все те сервера, сети и другое оборудование, но и обеспечивать выше заявленные цели, а особенно уже несколько раз упомянутый

uptime

Логичным образом дата-центры требуют больших затрат, как на этапе строительства, так и в процессе обслуживания, но не только (и не столько) финансовых, сколько логистических на всех уровнях, а также, что естественно, соответствия стандартам, суровый минимум которых представляет из себя следующий список:

  1. TIA-942 — Telecommunications Infrastructure Standard for Data Centers;
  2. TIA-568-C — Telecommunications cabling standards, used by nearly all voice, video and data networks;
  3. TIA-569-B — Commercial Building Standards for Telecommunications Pathways and Spaces;
  4. TIA-607-B — Commercial grounding — earthing — standards;
  5. TIA-598-C — Fiber opticcolor-coding);
  6. TIA-222-G — Structural Standard for Antenna Supporting Structures and Antennas;
  7. TIA-602-A — Data Transmission Systems and Equipment, which standardized the common basic Hayes command set;
  8. TIA-102 — Land Mobile Communications for Public Safety (APCO/P25).

Сами стандарты не взяты с потолка и связаны с компанией Telecommunications Industry Association, которая в свою очередь занимается их формированием и проверкой. Такие себе ребята, которые проверяют отели на пятизвездочность, только вот тут не отели, а ЦОД’ы.

ДЦ (дата-центр), если брать его не как здание/помещение, а территорию и говорить обобщенно, состоит из:

  • Информационной инфраструктуры, — сервера, компьютеры и пр;
  • Телекоммуникационной инфраструктуры, — взаимосвязь, сети и коммуникации;
  • Инженерной инфраструктуры, — условно говоря, всё остальное, т.е кондиционеры, бесперебойники, противопожарка и тп, т.е “обвязка”, которая требуется для нормального функционирования.

А вот теперь, когда мы поговорили с Вами про общее понятие и определение, про представление и стандарты, соответствия, содержимое и пр, а так же чуть чуть затронули историю, то есть смысл поговорить и о второй части, — классификации. Она же Tier.

Вводная

Прежде чем идти дальше, для начала коротко расскажу о ситуации. Сейчас у КРОК есть 3 ЦОДа, которые располагаются вот так:

Первые два – у нас в офисе и под соседним зданием парковки соответственно. Третий (как раз «Компрессор») находится подальше, но тоже в Москве, из-за развитой инфраструктуры и хороших каналов связи в столице и из любой точки города. Он расположен там, куда системный администратор или инженер спокойно может добраться минут за 40-50 из любой точки города или из центра на метро или машине.

Вообще, на сегодня мы участвовали уже более чем в 60 запусках ЦОДов разных компаний в России – где-то делали очень много, где-то консалтили, где-то выполняли только отдельный участок работ. Опыт накопился большой. Но начиналось всё просто: первый ЦОД был пилотный, со всеми классическими решениями.

На базе него мы для себя поняли, насколько перспективно это направление и насколько аутсорсинговые ЦОДы востребованы. Тогда же мы начали проектировать и строить ЦОД «Компрессор». По ходу дела появилась возможность построить ещё один не очень большой ЦОД под парковкой.

Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр
Первый ЦОД на 90 стоек и 1Мвт.Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр
Второй ЦОД на 110 стоек и 2 Мвт.Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр
ЦОД «Компрессор» на 800 стоек и 8 Мвт.

Базовые параметры ЦОД «Компрессор»
  • Отказоустойчивость: Tier III, подтвержденная Uptime Institute,
  • Охлаждение: N 1, в среднем 5 кВт/стойку (есть и 30 кВт стойки, они ставятся рядом с менее мощными в машзале),
  • Энергоснабжение: 2N, ИБП – 15 минут, ДГУ – 24 часа без дозаправки,
  • Вместимость – 800 стоек,
  • Помещения склада и персонала заказчика,
  • Охраняемая территория,
  • Здание в собственности,
  • Соединен оптоволоконным кольцом с сетью дата-центров КРОК,
  • 6000 кВт общей холодильной мощности, из них 1500 кВт резерв,
  • Сквозное резервирование системы холодоснабжения N 1 (3 1),
  • Среднегодовой расчётный PUE не хуже 1.45,
  • Запас холода 15 минут при отключении электроснабжения,
  • Температурный диапазон -36… 37 градусов (это абсолютный минимум и максимум за последние 10 лет в Москве).

Вводная и определения

Tier

, как ни странно, не является аббревиатурой и условно говоря считается “уровнем”. Вообще говоря, — его стоило бы назвать стандартом, в соответствии с которым классифицируется тот или иной дата-центр, но в стандарт входят подстандарты, каждый из которых определяет… Нет, не так.

Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр

Скорее тут будет уместно, как уже я пытался применить метафору выше, — это звёздочка как у отелей. Больше звёздочек, — выше качество по всем параметрам, что в эти звёздочки входят. Питание, охрана, уборка, вот это вот всё.

Итого, центры обработки данных (ЦОД) распределяются по 4 категориям – Tier 1, Tier 2, Tier 3 и Tier 4 (Tier 4– наивысшая категория).

Принято считать, что 4-ой нет в природе, но постепенно по ней начинают сертифицировать и упор там большей частью ориентирован на местоположение в пространстве (глобально и локально) в целях, в частности, защиты от природных катаклизмов. Почти себе дублирование природы 🙂

Сами центры делятся по размерам, надежности и предназначению:

  • По размерам, — бывают модульные, большие, маленькие, средние и контейнерные. В общем и целом ничего особенного, кроме первых и последних;
  • По надежности, — об этом ниже, уровни надежности определяются стандартами и пр;
  • По предназначению, — для компании или для всех желающих, зависящие от провайдера или нет и тп.

Теперь далее.

Tia vs uptime

TIA 942 — Telecommunications Industry Association — Telecommunications Infrastructure Standard for Data Centers:

Uptime Institute — Tier Classifications Define Site Infrastructure Performance

  • Этот документ не стандарт, а скорее методология, разработанная специально для нормирования отказоустойчивости ЦОД. Например, телекоммуникационная инфраструктура практически не рассматривается.
  • Носит обязательный характер (если вы хотите получить сертификат, конечно).
  • Нет пошаговых инструкций (они быстро устаревают), но есть сформулированные основные принципы проектирования и подходы. «Делай по таким принципам и получишь отказоустойчивый объект».
  • Сертификация осуществляется только самим Uptime Institute.
  • Сертифицируется как проект, так и полученный результат (запущенная площадка).
  • Проверяется, что именно получилось в результате — без особого акцента на том, как был этот результат достигнут, то есть допускается гибкость в плане проектирования в конкретной ситуации (если это играет на результат).
  • Сначала сертифицируется проект (Tier Certification of Design Documents), потом готовая площадка (Tier Certification of Constructed Facility), а потом регулярно, с периодичностью, например, раз в год, три или пять уже сама эксплуатация (Operational Sustainability Certification) на предмет её соответствия стандарту. Последнее сделано для оценки эксплуатации, наблюдения за ресурсом оборудования и другими вещами, меняющимися в процессе.

При этом именно классификация уровней в TIA 942 предложена как раз Uptime Institute, и по сути своей они весьма схожи. При этом кардинально разнятся принципы оценки. Ещё раз: TIA говорит «Делай точно как написано, и всё будет ОК», Uptime Institute говорит «У тебя должно быть всё ОК любыми методами, в соответствии с заданными принципами, а потом мы проверим что оно работает».

Про сертификаты:  Сертификат ППР

Tier iv — максимальная отказоустойчивость

  • Допустимое время простоя за год – 26 минут
  • Показатель доступности – 99,995%
  • Резервирование – дублированное (2(N 1))
  • Уровень надежности – максимальный

Дата-центры Tier IV построены на инфраструктуре предшествующего уровня с добавлением концепции максимальной отказоустойчивости (Fault Tolerance). Это позволяет минимизировать любые простои в предоставлении услуг, будь то плановые работы или аварийный ремонт. На сегодняшний день это наивысший уровень надежности для центров обработки данных по классификации Uptime Institute.

Tier 4 включает в себя требования всех предыдущих стандартов. Главная отличительная черта ЦОД IV заключается в полном многоуровневом резервировании компонентов инфраструктуры. Все инженерные системы объекта резервируются по схеме 2 (N 1). Это означает, что помимо основной системы ЦОД, дублируются и все дополнительные по схеме N 1.

Кроме того, в инфраструктуре применяется секционирование, при котором основные и резервные компоненты системы распределены по разным помещениям. Секционирование делает компоненты независимыми друг от друга, что повышает эксплуатационную надежность дата-центра при выходе одного из них (либо самого помещения) из строя. Объект 4 уровня должен использовать данный подход для организации всех критических систем ЦОД.

Автоматика

Ну и напоследок — в стандартах нет рекомендаций по организации автоматики, срабатывающей в аварийных ситуациях и рекомендаций по организации персонала типа аварийных служб. У себя мы применяем старый добрый «советский» подход, когда всё сделано предельно просто и надёжно, чуть ли не на реле: никаких сложных микроконтроллеров с собственной логикой и никакого «восстания машин».

Мы выводим автоматику туда, где ситуация однозначна и нужна скорость, превышающая скорость человеческой реакции. При этом всё то, где требуется взвешенное решение, оставляем на ручное управление. Как частный пример – с города на дизель переключает автоматика.

Перевод же с дизеля обратно на город (с отключением дизеля) делается строго руками на установке, а не щелчком в интерфейсе. Задача – чтобы важные действия не выполнялись на «автопилоте»: много аварий происходит именно из-за того, что люди сначала делают, а потом думают.

Для объекта уровня tier iii характерны:

  • Наличие дополнительных каналов электропитания по схеме резервирования N 1;
  • Использование промышленных систем охлаждения и кондиционирования с резервированием, а также систем контроля ТВР – температурно–влажностностного режима в серверных залах;
  • Присутствие ДГУ – дизель–генераторной установки на случай аварий энергосети;
  • Наличие нескольких независимых энерговводов; 
  • Распределенное резервирование каналов связи;
  • Соответствие регламентам и применение инструкций при работе эксплуатационной команды дата-центра;
  • Наличие систем противопожарной безопасности: раннего оповещения, противодымной вентиляции, установок газового пожаротушения;
  • Использование фальшпола;
  • Присутствие промышленных ИБП в машинных залах;
  • Возможность проведения технических работ и обслуживания ЦОД без остановки;
  • Расположение ЦОД в отдельном здании с огороженной территорией; 
  • Уровень безотказной работы Uptime – 99,982% в год.

Благодаря своим свойствам и системам, дата-центры 3 уровня можно рассматривать как всесторонне надежный объект. Большинство онлайн-сервисов, компаний разной величины, государственных структур использует для своей работы именно данный класс дата-центров.

Защита от пыли

Инфраструктура отказоустойчивого дата-центра класса TIER-III / Хабр

Заготовка воздуха

В посте про строительство этого ЦОДа спрашивали про защиту от пыли. Вообще, вещь достаточно простая, но расскажу детальнее. Нужно несколько операций:

  • Во-первых, надо убрать всё после монтажа оборудования после застройки. Для этого мы привлекли специальную клиниговую компанию, которая зачистила всё так, как будто нужно было установить карантин для инопланетян.
  • Во-вторых, когда пыли внутри уже нет, важно не пускать её больше в ЦОД. Фильтрацию воздуха внутри машзалов обеспечивают фильтры фанкойлов EU4. То есть снаружи пыль может попасть только с посетителями.
  • В-третьих, любая пыль, пришедшая в ЦОД вместе с гостями, фильтруется теми же фильтрами, поскольку воздух внутри машзалов циркулирует фактически в замкнутом объеме с огромной кратностью.
  • И, в-четвёртых, в машинных залах обеспечен подпор воздуха специальной вентиляционной машиной (тоже с фильтрами, разумеется), то есть внутри залов обеспечено небольшое избыточное давление, которое не дает подсосать пыль извне.

Защита цод уровня tier 3

Уровень Tier 3 имеет ряд специфических требований, которые в том числе касаются и системы противопожарной защиты ЦОД. Рассмотрим основные особенности каждой из подсистем противопожарной безопасности.

23сентября 2021 г. дата-центр компании DataSpace успешно прошел сертификацию Tier 3 Facility в соответствии со стандартами The Uptime Institute. Это первый дата-центр в России и первый в Восточной Европе, получивший данный сертификат. ООО “ДатаСпейс Партнерс” предоставляет услуги колокейшн высочайшего уровня, сертифицированных согласно уровню Tier 3 по классификации Uptime Institute – организации, ответственной за разработку отраслевых стандартов.

“Мы стали первой компанией – членом сети Uptime Institute на территории Восточной Европы. Это событие – ключевой этап в модернизации инфраструктуры России, способствующий развитию Москвы как финансового центра”, – прокомментировал президент компании Data-Space, специализирующейся на строительстве и эксплуатации дата-центров мирового класса, Дэвид Хамнер

Комплексная система автоматического пожаротушения Должна защищать 100% площадей объекта. Автоматическое газовое пожаротушение для дата-холлов и электрощитовых должно осуществляться с применением безопасного и экологически чистого огнетушащего вещества.

В соответствии с требованиями стандарта Tier 3, станция газового пожаротушения должна иметь возможность одновременной работы на два очага пожара в любой части здания при соблюдении всех существующих российских и европейских норм.

Основная система сигнализации должна быть выполнена на основе адресно-аналогового оборудования. Это позволяет создавать распределенную структуру, в которой ее части (СПС, СГПТ, СОиУЭ) в случае аварии могут работать самостоятельно, что является требованием российских норм

Напомним, что, по действующим российским нормам, требуется погасить только один очаг пожара и иметь “горячий” резерв, то есть вторую подключенную к коллектору батарею с газом для дотушивания очага пожара в том же самом помещении, куда был выпущен основной запас огнетушащего вещества.

Систему для ЦОД уровня Tier 3 следует проектировать таким образом, чтобы она была способна направить и основной, и резервный запасы в любой из дата-холлов, которые расположены в разных крыльях здания. Такое решение значительно повышает уровень пожарной защиты без заметного увеличения ее стоимости.

Комплексная система пожарной сигнализации и оповещения Пожарная сигнализация в серверных и ЦОД имеет свою специфику, связанную с интенсивностью воздухообмена, создаваемого для отведения тепла, генерируемого серверами. Как правило, даже самые качественные и высокочувствительные оптические дымовые датчики, установленные на потолке, согласно нормативам, находятся в “мертвой” зоне, так как воздухозаборники системы кондиционирования, интенсивно засасывая теплый воздух, создают такую форму потока, которая способна донести частицы дыма до детектора только на поздней стадии возгорания.

Несмотря на высокую стоимость создания ЦОД уровня Tier 3 (а также хостинг-услуг), они пользуются все большим спросом, так как предоставляют более высокое и, главное, более надежное качество услуг

Основная система сигнализации должна быть выполнена на основе адресно-аналогового оборудования. Это позволяет создавать распределенную структуру, в которой ее части (СПС, СГПТ, СОиУЭ) в случае аварии могут работать самостоятельно, что является требованием российских норм.

Аспирационная система раннего обнаружения дыма Наличие такой подсистемы в составе пожарной сигнализации дает возможность обнаружения не только дыма, но и первых признаков перегрева еще до того, как начнется тление. Дополнительно эта же аспирационная система может выполнять функции предупреждения о необходимости проведения профилактических работ по оборудованию, находящемуся в дата-холлах.

Следует настраивать датчики на сверхчувствительный режим, в котором при появлении точек с температурой выше 60–70 градусов выдается соответствующий сигнал на пульт управления. Дежурный оператор в плановом режиме делает заявку в адрес обслуживающей организации, которая так же без спешки выезжает и проводит профилактические работы для обнаружения мест и устранения причин перегрева.

Специально для ЦОД уровня Tier 3 можно предусмотреть не совсем обычную архитектуру аспирационной системы. А именно расположить всасывающий трубопровод над воздухозаборниками системы кондиционирования воздуха. Это позволит сократить трубную часть системы, уменьшить объем монтажных работ и одновременно увеличить надежность системы.

Как шла проверка

Парни из Аптайма сначала приехали сертифицировать нам объект (после того, как мы построили его по сертифицированному проекту). В этот момент получать третий сертификат по эксплуатации было рано — по моей оценке нужен примерно год после запуска ЦОДа, чтобы устаканить все процессы и полностью обучить команду эксплуатации.

Чуть позже мы позвали их ещё раз с аудитом перед сертификацией. Смысл аудита — проверить, что не так, что нужно дорабатывать и дать кучу рекомендаций по улучшению работы. В нашем случае было именно так.

Через десять месяцев они приехали ещё раз на три дня. Первые несколько часов просто ходили по объекту, ориентировались, заглядывали в разные углы и водили пальцами по труднодоступным местам, всячески радовались. Потом всей толпой сели в наши помещения для админов (тёплый офис с кухней) и обложились документацией. Два дня только проверяли соответствие бумажек друг другу, плюс знания людей о них.

Ещё один вид активности — звали определённых инженеров (например, диспетчера) и говорили: «Такая-то авария, что будешь делать?». Он отвечал по регламенту действий, его отпускали.

Какой уровень tier выбрать для своего бизнеса?

Стандарты Tier имеют большое распространение в мире, но далеко не все российские центры обработки данных проходят эту сертификацию. Для относительно небольшого ЦОД расходы на прохождение официальной сертификации достаточно ощутимы, что также сказывается на конечной стоимости предоставляемых услуг.

Про сертификаты:  Международные экзамены Pearson Tests of English - Образование-Карьера Королёв

Тем не менее классификация Tier стала неким эталоном в измерении надежности и эксплуатационных характеристик ЦОД. По этой причине практически все дата-центры, официально не подтвердившие свой стандарт в Uptime Institute, используют сопоставимые классификации Tier для обозначения своего уровня ЦОД.

  • Для самых требовательных и критически важных ресурсов лучше выбирать объекты 4 типа. Однако, на данный момент рынок ЦОД Tier 4 в России практически отсутствует.
  • Если вам требуется качественные услуги дата-центра, то лучше выбирать центры 3 уровня. Вы получите достойный сервис и высокую надежность услуг.
  • Для «домашних» или нетребовательных проектов можно рассматривать уровень Tier 2. В этом случае стоимость услуг будет более привлекательной, но следует быть готовым к возможным простоям. 

При выборе дата-центра в первую очередь следует руководствоваться надежностью инфраструктуры объекта. Обращайте внимание на резервируемые компоненты энергопитания, дублирование каналов связи, многоуровневую физическую безопасность, круглосуточную техническую помощь.

Немного лирики о взлётах и падениях

Историю, которую Вы несомненно знаете где найти и без автора статьи, начиналась с больших компьютерных комнат, продуманных настолько, насколько это возможно. Если Вы когда-то были в научных лабораториях или объектах строго режима (особенно это военка), то примерно можете себе это представить.

Множество разумно проложенных кабелей, особое расположение самих компьютеров, строгие инструкции, продуманные пространства, освещение и многое другое, — это всё то, что изначально было заложено в основу будущих ЦОД’ов.

Со временем, конечно же, с удешевлением оборудования и другими переломными для индустрии моментами, всё это кое-где перебиралось в серверные (часто не очень квалифицированные) и прочее прочее, и, казалось бы, что скоро в дата-центрах не будет нужды, но жизнь расставила всё по своим местам, — появился интернет (бум роста ЦОД-ов пришелся на 1994—2003 года), высокопроизводительные сервера/сети/системы и ресурсоемкие задачи для них и нечеловеческая необходимость в вышеупомянутой стабильности и бесперебойности работы с чем простые серверные, само собой, не справлялись.

Цена нескольких секунд простоя IT-инфраструктуры стала стоить нещадных денег, следовательно возрос спрос, появилось предложение и ЦОД’ы не то чтобы стали расти как на дрожжах, но стали появляться, масштабироваться и работать больше, лучше и эффективнее.

Т.е стало еще более жизненно необходимо не просто обеспечивать постоянную работу, но и делать её эффективной (теплоотвод, энергопотребление), быстрой и поддерживать постоянную связь с внешним миром за счет магистральных и сопутствующих каналов.

Охлаждение


Система охлаждения – это баланс между экологичностью, ценой и эффективностью. Да-да, мы любим экологичные решения, и уже тогда думали про это, а не только про деньги.

Система двухконтурная, первый контур с водой — 200 тонн. В случае разлива никаких проблем. Вода ещё и хороша по теплофизическим свойствам. Баки-аккумуляторы у нас из железобетона, давление создаётся естественным столбом воды (система открытая).

Мы закладывали высокие параметры по температуре, чтобы минимизировать потери мощности на конденсации воды на теплообменниках. В нашем случае 13 градусов на подающей 18 градусов на обратной магистрали. В будущем, в следующих ЦОДах (мы их постоянно строим в России) хотим ещё поднимать температуру, можно двигаться дальше.

Внешний контур заполнен этиленгликолем. Чиллеры и драйкулеры включены последовательно — то есть расширяется температурный диапазон работы в режиме свободного охлаждения, можно практически до 15 на улице частично снимать тепло драйкулерами в режиме свободного охлаждения. 100% Фрикулинг с полным съёмом мощности доступен уже при 5 и ниже.

Применяли систему автоматизированного проектирования, что позволило оптимизировать итоговую схему. В процессе испытания получили все заложенные в проект значения по температурам, давлению и так далее совершенно чётко и без сложностей. Вручную было бы сложно из-за высокой разветвлённости трубопроводов.

Основные параметры:

Поставщики:

Под фальшполом нет ничего, кроме труб системы газового пожаротушения, и там ничего не зонируется, работаем на общий объем. Чиллеры все воздушные «сухие» градирни, включенные в контур последовательно (сначала по потоку стоят градирни, потом чиллеры).

В предыдущем топике был вопрос по именно такому решению через фальшпол, расскажу чуть подробнее, почему. Работа через фальшпол достаточно эффективна, удобна и конструктивно проста практически для всех современных применений в ЦОДах. Одна из задач, которую мы решали при проектировании инженерных систем состояла в том, чтобы внутри машинных залов не было никакого «постороннего» (не относящегося к арендаторам) инженерного оборудования.

Нужно это потому, что если, например, банк размещает у нас стойки, то чаще всего ставит специальные ограждения прямо в машзале. Любое обслуживание оборудования внутри зоны клиента означает необходимость звать их безопасников. Вопросы безопасности наших клиентов превыше всего.

Вторая задача – отсутствие воды в машинных залах и над ними (никаких «внутрирядников» и «холодильников» на перекрытиях). Работая через фальшпол мы обе эти задачи и решили, ведь фанкойлы у нас вынесены из машзалов в специальные боковые коридоры.

Ещё вопрос был про «мегагорячие» стойки. Они охлаждаются на общих основаниях. Рядом с ними ставим «пустые» стойки с заглушками. Есть условие — через одну перфорированную плитку фальшпола в наших условиях можно продуть количество воздуха, достаточное для снятия примерно 5 кВт тепла (одного «среднестатистического» серверного шкафа). Если сервер выделяет 30 кВт, значит ему нужно отдать 6 плиток.

Практика

В нашей практике подготовки ЦОДов к сертификации по Uptime всплывало несколько «нежданчиков». Например, когда сертифицировали по Tier III собственный дата-центр – потребовалось довольно специфически организовать управление синхронизацией дизель-генераторов (

) — на деле в России мало кто об этом даже задумывался. Или вот ещё пример «из неожиданного»: при проектировании систем бесперебойного питания обычно смотрят на тип батареи, ёмкость, герметичность, обслуживаемость и так далее — то есть рассматриваются только основные параметры батарей.

На самом деле при проектировании ЦОД следует принимать во внимание и более «тонкие» характеристики. Например у батарей еще и разные кривые разряда (грубо говоря, разная ёмкость при разной скорости разряда) — при частичной нагрузке всё хорошо, но при полной нагрузке система не сможет держать положенное время, ДГУ не успеет выйти на требуемый режим, и произойдет отказ.

А вот пример из практики одного из заказчиков: на бумаге никто не докапывается до состояния дизельного топлива. Грубо говоря, есть генераторы, есть резервные линии доставки топлива, а соляр он и есть соляр, главное, чтобы доливали вовремя. ЦОД может быть оценен как соответствующий требованиям TIA.

Но на практике ДТ в нашей стране обладает парой волшебных свойств, и дизели вполне могут захлебнуться. Это несоответствие проверке на уровне эксплуатации. Грубо говоря, в TIA никогда не возникнет вопрос «а что если в баке вместо ДТ окажется вода?» и «когда вы в последний раз меняли топливо?».

Понятно, всё проверить нельзя. Например, всегда есть человеческий фактор, который создаёт крайне непредсказуемые ситуации. В среде инженеров ходит байка, что ещё в двухтысячных годах в Израиле один из ЦОДов крупной IT-компании остановился благодаря нашему соотечественнику в новый год.

Он отмечал праздник, выпил прямо на смене, потом продолжил. После полуночи питание из города пропало, и врубились дизели (участие человека не требовалось, сработала автоматика). Но герою чем-то очень помешал шум, и он вручную аварийно повырубал все генераторы, чтобы продолжить отдых в комфортной обстановке.

Словесная квалификация


Давайте теперь разберемся, что тут к чему, собственно, на словах.

  • Первый Tier, — базовый уровень, согласно классификации, актуальной в 1960-е и 1970-е годы. В общем и целом это небольшая одиночная уютная серверная с печеньками;
  • Второй, — большая серверная в нормальном (фальшпотолки, кондиционеры, ибп, плинтуса и тп) её исполнении и помещении (или нескольких), где есть дополнительные компоненты (N 1) активного оборудования, стойки и тп;
  • Третий, — полноценный и пока самый часто встречающийся ЦОД, где используется своя территория, здание (или несколько), охрана, все необходимые системы и коммуникации, дублируется распределение потоков этих систем и коммуникаций, в частности это касается трубопроводов охлаждения, каналов связи в здании, питание во всех его смыслах и на любой случай;
  • Четвертый, — всё есть, плюс многократное дублирование всего, и дублирование дублей этого всего. Кто бы что ни говорил, как уже говорилось выше (простите за тавтологию), — в природе в общем-то не встречается.

Помимо этого стоит знать, что самые популярные коммерческие ЦОД, – это Tier 2 и Tier 3.

У Tier 1 отсутствует необходимое резервирование, а Tier 4 чаще всего является частным… кхм, дата-центром.

Помимо уровня резервирования и надежности, собственно, Tier 2 и Tier 3 различаются еще и наличием собственной территории, здания, других особенностей, а именно:

Стоит отметить, что человеческая сетевая инфраструктура начинается на третьем уровне Tier, несмотря на то, что построена в общем и целом достаточно базово, — резервирование внутренних и внешних каналов играет большую роль.

Особенно выигрывает 3-йка, если дата-центра компании, что им владеет, два или больше и оба они Tier 3 (с разными каналами наружу, но парными между друг другом).

Советы

Как я говорил, лучше проходить где-то через год после начала эксплуатации новой командой, потому что одна из частей проверки — как люди нашли недостатки проекта (или развивали ЦОД от проекта), как изучали оборудование и что исправили «по живому» уже на запущенном дата-центре.

Из недочётов: например, на этапе сертификации выяснилось, что нужно делать максимально подробные инструкции. А у нас, к примеру, есть 6 одинаковых подсистем. У первой есть детальная инструкция по переключению в случае аварии. На второй было «делай аналогично 1» — придется менять, писать точно такую же, только свою инструкцию, чтобы по месту ничего не перепутали.

Про сертификаты:  iC-2024 - Карта | 897 рублей/шт

Ещё важно правильно оформлять все документы по улучшениям, в т.ч. журнал модернизации. Нужно понимать, что некоторые изменения вообще могут понизить уровень надежности ЦОД в целом.

Каких-то особых сюрпризов во время проверки у нас было. Есть лист требований, который надо тщательно изучать, и представлять, что каждый пункт будет ковырять сразу три параноика. До бумажек «докапываются» очень сильно, что, в целом, правильно — просто на обычных проверках никто не строит корреляции между разными документами, а тут —вполне, и довольно глубокие.

Например, после экскурсии они попросили нас выгрузить точную карту того, как и где они ходили по объекту — это делается по системе контроля допуска, по видеонаблюдению.

Табличная классификация

Автор заранее предупреждает, что описанную ниже табличную классификацию он пишет так, как её “‘помнит”.

Гугл подсказывает, что помнит верно.

Но насколько сместились общие параметры соответствия (обратите внимание на доли) сказать может разве что сами Telecommunications Industry Association.

И так:

По поводу N:

  • (N) — отказы оборудования / тех.работы приводят к остановке работы всего ДЦ, часто нет резервных каналов, питания и тп;
  • (N 1) — чуть больше резервирования (обычно по питанию), но всё равно всё встаёт, если что;
  • (2N) — прилично резервов, один обычно в работе во время тех.работ, второй работает и наоборот, есть горячая замена инженерки и пр;
  • (2(N 1)) — все резервные каналы (питание, коммуникации, сети, связь и пр), причем задублирован и основной и дополнительный (не только канал, но и системы), т.е если в ходе тех работ падает две системы дублирования (основная и доп., то есть еще две) и вообще можно кинуть в ДЦ ядерную бомбу 🙂

Теперь к словесному варианту.

Требования к защите

8  данном случае речь идет о соблюдении норм пожарной безопасности РФ и стандартов The Uptime Institute. Причем требования Tier 3 выходят за рамки российских норм, а точнее, превосходят их.

Прежде всего, необходимо помнить, что ЦОД – это объект с повышенной пожарной нагрузкой, которая создается за счет:

  • оборудования, генерирующего тепло;
  • большого количества кабелей, силовых и слаботочных;
  • наличия ИБП или ДДИБП с запасом топлива;
  • внешних причин – молния, подтопление, человеческий фактор.

Где обязательно автоматическое пожаротушениеНа территории Российской Федерации основным нормативным документом по пожарной безопасности помещений с ЭВМ, к которым относятся серверные и центры обработки данных, является СП 5.13130.2009. Данный свод правил обязывает устанавливать систему автоматического пожаротушения для помещений, в которых находятся:

  • связные процессоры (серверные), архивы магнитных и бумажных носителей, графопостроители, оборудование для печати информации на бумажных носителях (принтерных) при площади помещений 24 кв. м и более;
  • электронно-вычислительные машины (ЭВМ), работающие в системах управления сложными технологическими процессами, нарушение которых влияет на безопасность людей, независимо от площади помещения.

Особо жесткие требования К системам пожаротушения и огнетушащим веществам для помещений с электронным оборудованием предъявляются особо жесткие требования:

  • безопасность для защищаемого оборудования;
  • отсутствие электрической проводимости;
  • компактность;
  • минимальное время обнаружения возгорания;
  • быстрое тушение;
  • безопасность   для обслуживающего персонала;
  • простота технического обслуживания;
  • минимальное время простоя защищаемого
    оборудования;
  • безопасность для окружающей среды.

Tier 3: новый уровень защищенности Уровень Tier 3 еще более требователен к противопожарной защите ЦОД.

1. Более высокие требования к системе АПС (автоматической пожарной сигнализации):

  • минимум риска ложных срабатываний – адресно-аналоговые системы ведущих мировых  производителей,  оптические дымовые датчики с контролем и компенсацией уровня запыленности;
  • система  раннего  обнаружения  дыма (лазерная аспирационная) – в дополнение к основной адресно-аналоговой системе;
  • интеграция с системой BMS.

2. Особые требования к системе АПТ (автоматического пожаротушения):

  • применение только безопасного газа;
  • проведение специальных испытаний для определения коэффициента герметичности для всех защищаемых помещений (Room Integrity Test);
  • возможность тушения одновременно в любых двух помещениях;
  • 100% “горячий” резерв для тушения любого из помещений.

3. Повышенные требования к огнетушащему веществу. Газ должен быть:

  • быстродействующим/эффективным;
  • безопасным для оборудования ЦОД;
  • безопасным для персонала ЦОД;
  • безопасным для окружающей среды (не
    должен попадать под международные ограничения);
  • доступным для быстрой перезаправки в случае выпуска (предполагается наличие заправочной станции у поставщика системы).

Уровни i-iv


Принципиально, и для стандарта TIA 942, и для методологии Uptime Institute классификация по уровням

одинакова

. Грубо описать их можно так:

Как пример: если мы делаем систему с доставкой жидкого теплоносителя по трубам, в Tier III надо делать двойное кольцо, а в Tier II можно обойтись одним. При этом уровень резервирования чиллеров и фанкойлов может быть одинаковым. То же самое касается электропитания и других систем.

На уровне IV ещё круче: например, ИБП и трассы питания должны быть не просто задублированы, но ещё и разнесены в разные помещения: если первый блок взорвётся (аварийный случай, а не плановая остановка), то второй не должен пострадать. Если прорывает трубопровод в каком-то месте, это никак не влияет на дублирующую электронику — есть физическое разделение систем.

Если говорить обывательским языком (очень грубо), то уровни выглядят так: первый работает и может отказать, второй в целом нормально работает и выдерживает часть самых распространённых отказов, третий выживает в любых некритичных условиях, четвёртый пригоден для работы в военных условиях.

При этом для США стоимость объекта колеблется так: 30К, 50К, 65К и 100К долларов за стойку (это очень приблизительные цифры, для оценки соотношения затрат между уровнями). В России, обычно ещё дороже. Таким образом, если выбирать между Tier II и Tier III, бюджет увеличивается не очень существенно, а вот аптайм – более чем.

Цели и задачи

Изначальной целью почему-то заявляется снижение совокупной стоимости

IT

-инфраструктуры для того же бизнеса за счет сокращения расходов на администрирование, перераспределение нагрузок и прочее прочее.

На самом деле это не совсем так, благо цена на обслуживание инфраструктуры и мощностей заложена в стоимость аренды юнита (и всех услуг) в дата-центре, равно как и почти все остальные накладные расходы, что с этим связаны. Бизнес не работает себе в убыток, пускай и выигрывает на “расходниках” за счет плотности, инфраструктуры и оптовости.

Единственно-разумной и точной целью существования центров обслуживания и хранения данных является обеспечение стабильной и бесперебойной работы всего размещенного в нём сетевого, серверного и иного оборудования. В общем и целом это можно назвать uptime, про который мы еще поговорим далее.

Ресурсы и мощности, масштабируемость и стоимость, размеры и люди, — это второе. Стабильность и бесперебойность, — первое.

Цод tier 3

Tier III есть принципиальное отличие, которое мы упомянули выше. В ЦОД Tier III есть возможность ремонтировать оборудование, не прекращая работу. Ремонт включает в себя профилактику технического обслуживания, замену/добавление/убавление компонентов или их тестирование. Чтобы ЦОД мог продолжать работу, он должен быть оборудован мощным каналом резервирования, который равен первому.

Чтобы реализовать надёжность Tier III, нужно оборудовать ЦОД схемой резервных блоков систему кондиционирования, ИБП, ДГУ. Также требуются два комплекта трубопроводов для жидкого охлаждения (систему чиллер-фанкойл). 

В ЦОДах Tier III предусмотрено большинство случаев человеческого фактора. 

В комплектацию ЦОД этого уровня входят:

  • контроль доступа, 

  • резервные входы, которые дублируют подъезды, 

  • отсутствие оконных проёмов, 

  • увеличенная несущая способность перекрытий (не менее 1225кг/м²)

Электроснабжение

Инфраструктура отказоустойчивого дата-центра класса TIER-III / ХабрИзвините, меня предупредили, что если на схеме будет что-то читаться, то безопасники меня пристрелят, поэтому вот так.

Энергоснабжение

  • 8 МВА максимальное энергопотребление ЦОД,
  • 4 МВт (4х200х5 кВт) энергопотребление ИТ,
  • Энергия напрямую от генератора (ТЭЦ-11) по двум независимым кабельным линиям,
  • PUE по результатам замеров из полного потребления ЦОДа (включающего всех потребителей) к IT-стойкам 1,35-1,45 (зима), в отдельные дни было 1,25. 1,45-1,85 (лето). Запланированное среднегодовое – 1,45, идём чуть лучше плана,
  • Крупнейшая в России сборка ДГУ F.G.Wilson в контейнерном исполнении,
  • 7 ДГУ по 2000 МВА каждый,
  • Параллельная работа ДГУ на 2 шины,
  • Резервирование коммуникаций 2N,
  • Резервирование ДГУ N 1,
  • Запас топлива на 24 часа.

Бесперебойное энергоснабжение

Оборудование

Полные 8 МВт достигаются при температуре 37 снаружи и полной загрузке машинных залов. Вход — 2 линии от ТЭЦ, причём нам пришлось дорабатывать их питающие ячейки и самим прокладывать инфраструктуру до ЦОДа. Затем 8 трансформаторов, 4 группы по 2 штуки.

Мы старались минимизировать количество коммутирующих аппаратов. В России один автоматический выключатель на 2,5 килоампера стоит дороже, чем трансформатор. Поэтому мы оптимизировали схему исходя из минимизации затрат. На каждый машзал сейчас работает по два независимых трансформатора по 2000 киловольт-ампер каждый.

Нечётные трансформаторы питают чиллеры и градирни, чётные — фанкойлы. Мы имеем возможность отключать любой из трансформаторов, и при этом работоспособность ЦОДа не нарушается. Справа на схеме — 7 резервных ДГУ по 2000 киловольт-ампер резервной мощности. Запас топлива хранится в двух ёмкостях по 25 кубометров.

ИБП — классические статические. 38 штук по 300 киловольт-ампер каждый. Для машзалов резервирование 2N, для инженерной нагрузки — N 1. Обеспечивается 15 минут бесперебойного питания.

Силовые трансформаторы отечественные, они вполне высокого качества. Всего — 8 штук. Делал их Подольский трансформаторный завод, они прекрасно работают, никаких нареканий. Кабельная продукция тоже отечественная, но мы тщательно проверяли каждый кабель при отгрузке, потому что не секрет, что при больших партиях наши заводы могут выгнать брак. Воевали за каждый метр.

Оцените статью
Мой сертификат
Добавить комментарий