Настольная книга эксплуататора. Всё, что вы хотели знать о повседневной жизни датацентров, но боялись спросить

Text
1
Kritiken
Leseprobe
Als gelesen kennzeichnen
Wie Sie das Buch nach dem Kauf lesen
Schriftart:Kleiner AaGrößer Aa

Во время всех испытаний представители команды эксплуатации должны внимательно наблюдать за происходящим и делать для себя пометки о работе и специфике оборудования, которые затем могут быть использованы для составления инструкций по эксплуатации. Для этой же цели имеет смысл сделать фотографии или, если во время теста оборудованием управляет представитель производителя, даже заснять весь процесс на видео и использовать эпизоды в качестве обучающего материала.

Подводя итог, чем больше внимания и времени уделено скрупулезной подготовке программ тестирования, продумыванию и описанию всех мелочей, тем быстрее и с меньшим количеством ошибок будут проведены испытания.

Перепусконаладка

Recommissioning – повторное проведение ISAT-тестов через несколько лет для того, чтобы уточнить, насколько ухудшились характеристики всех систем, а также выявить компоненты, которые находятся уже в пограничном состоянии, и заменить их. Это очень полезное мероприятие, но понятно, что его проведение сопряжено с рядом сложностей. Во-первых, желательно, чтобы тестируемый модуль не использовался рабочими стойками, то есть такое тестирование можно провести, например, когда предыдущий заказчик закончил аренду, а новый еще не въехал. Во-вторых, нужно быть готовым, что в результате такого теста может потребоваться замена какого-то дорогостоящего оборудования, например ИБП[19] (источник бесперебойного питания). С другой стороны, лучше потерять сомнительное оборудование во время тестирования, чем при работе с уже установленными стойками заказчика.

Если провести повторную пусконаладку возможности нет, по мере взросления датацентра следует усилять внимание к работе всех компонентов систем: изучать причины странных шумов, внимательно рассматривать целостность корпусов, контролировать появление даже мелких протечек, точек ржавчины, потемнения изоляции кабелей и т. п. Следует помнить, что плановая остановка датацентра для ремонта, конечно, болезненна и неприятна, но принесет гораздо меньше потерь, чем остановка по аварии с последующей лихорадочной заменой.

Глава 3
Построение команды эксплуатации

Выше мы обсудили место команды эксплуатации среди других отделов компании, постарались обрисовать границы между зонами компетенций этих отделов и упомянули, что там стоит поставить «пограничников» – контактных лиц, к которым будут обращаться коллеги из других подразделений и внешние люди.

Для того чтобы эта информация была доступна всем заинтересованным лицам, таблицу контактов можно оформить на внутреннем ресурсе компании (если таковой есть) или положить на FTP-сервер[20] отдела и при необходимости отправлять коллегам ссылку на эту матрицу. Приведу простейший пример такой матрицы:



Разумеется, администратор площадки должен постоянно следить за актуальностью этой информации и обновлять ее по мере необходимости.

Определение состава

Разобравшись с теми, кто стоит по периметру нашей службы, давайте разберемся, кто должен быть внутри. Для этого нужно четко понимать те задачи, которые нам предстоит решать, а что еще важнее, как именно их нужно решать. Ведь именно от этого «как» и будет зависеть состав отдела. Попробуем перечислить роли внутри одного, довольно большого, датацентра, являющегося отдельным юридическим лицом.

1. Административная команда возглавляется генеральным директором. Его главная задача – обеспечивать деятельность юридического лица, организуя процессы в соответствии с законодательством. Генеральный директор часто является публичным лицом, выступая от имени компании на встречах с представителями администрации.

2. Специалист по охране труда и экологии. Является правой рукой генерального директора, так как бóльшую часть вопросов по ежедневной деятельности юридического лица делят между собой налоговая бухгалтерия и как раз отдел по ОТ.

3. Специалист по пожарной безопасности. На небольших объектах он либо нанят через подрядчика, либо может быть приходящим сотрудником. Это специалист, обладающий компетенцией по разработке, техническому обслуживанию и эксплуатации систем ПБ. Не нужно его путать с ответственным за пожарную безопасность – лицом, отвечающим за исправное состояние средств пожаротушения и проведение инструктажей, хотя эти две роли могут и совмещаться.

4. Администратор датацентра. Под этой должностью я понимаю не столько секретаршу, отвечающую на звонки, приносящую кофе и вызывающую такси (хотя и эти задачи тоже достаются администратору), сколько хозяйку дома, основная задача которой – сделать так, чтобы всем сотрудникам и посетителям датацентра было удобно и комфортно работать. В небольшом датацентре на плечи администратора ложатся также и задачи по помощи делопроизводителям, бухгалтерии, отделу кадров. Если таких задач становится очень много, конечно администратору нужно нанимать кого-то в помощь.

5. Facility Manager. Еще один специалист, который может быть в команде генерального директора, хотя также может работать и вместе с техническим директором. Удачный перевод этой должности на русский язык мне подобрать не удалось, но вкратце это тот, кто следит за состоянием зданий, помещений, дворовой территории и т. п.

6. Технический директор. Отвечает за деятельность площадки как датацентра, то есть совокупности инженерного оборудования. Координирует планы работ всех групп, организует работу сменных инженеров, координирует бюджетирование.

7. Сменные инженеры. Часто самая массовая группа сотрудников в датацентре, постоянно находящаяся на площадке и готовая в любой момент организовать восстановительные работы в случае инцидента. В свободное от устранения аварий время занимается обходами, проведением планового технического обслуживания, тренировками и самообразованием.

8. Специалист по работе с документацией. Самый главный по поддержанию работы CMMS, системы хранения документации, а также собирающий разнообразные отчеты по работе датацентра.

9. Группа технического обслуживания систем электроснабжения. Количество и состав группы полностью зависят от разнообразия видов оборудования на площадке. Например, эта группа должна обеспечивать техническое обслуживание и ремонт ИБП, дизельных генераторов, распределительных щитов.

10. Группа технического обслуживания механических систем. Если обслуживание не передано сторонним организациям, то состав группы, как и у коллег в электроснабжении, зависит от того, какое оборудование применяется. Здесь могут быть специалисты по вентиляции, кондиционированию, сжатому воздуху, системам управления, водопроводчики и т. д.

11. Группа технического обслуживания газового хозяйства. Применение газа непосредственно для целей снабжения серверов энергоресурсами развито не очень широко. Например, электричество может вырабатываться газопоршневыми установками, а холод – абсорбционными машинами. Однако газ может использоваться и просто для бытовых целей на площадке. Количество и сложность оборудования определяют необходимость собственной команды.

12. Технический директор по IT. Обеспечивает руководство всеми IT-специалистами на площадке, составляет планы, управляет мощностями и т. п.

13. Команда поддержки IT первой линии. По численности почти не уступает дежурным и занимается решением рутинных, хорошо документированных задач, таких как замена вышедших из строя дисков, модулей памяти, коммутациями, перезагрузкой серверов и т. п. В некоторых коммерческих датацентрах эта услуга продается под названием remote hands.

14. Команда поддержки IT второй линии. Занимается более сложными проблемами с серверами. По уровню компетенции аналогична группам ТО. Специалисты могут как обеспечивать квалифицированное общение с производителями оборудования, так и выполнять какие-то работы самостоятельно.

15. Команда внедрения оборудования IT. Их основная задача – качественно смонтировать и подключить новое оборудование либо внести изменения в существующую инсталляцию. Часто не выделяется в отдельную группу, а набирается из других, свободных на данный момент специалистов для каждого отдельного случая.

16. Специалисты систем мониторинга и автоматизации. В современном датацентре инженерное оборудование работает достаточно надежно, по сравнению с ним системы контроля и управления отказывают гораздо чаще. Чтобы налаживать эти системы, а также постоянно оптимизировать набор наблюдаемых данных, многие компании нанимают отдельных специалистов. Также иногда роль таких специалистов достается наиболее талантливым дежурным.

17. Специалист службы безопасности. Принимая во внимание, что собственно охрана осуществляется сотрудниками внешнего ЧОП, этот специалист совместно с другими руководителями датацентра определяет политику безопасности, внедряет ее в работу и постоянно следит за ее выполнением.

 

18. Специалист службы обеспечения. Необходимость такого специалиста вызвана тем, что в ежедневной работе датацентра существует большое количество процессов по бюджетированию, закупке, сопровождению документов, постановке приобретенного на учет, подтверждению завершения поставки и т. д. Рядовым инженерам датацентра порой непросто в этом разобраться. Поэтому всегда существует масса непонятных вопросов, ошибочно заведенных данных, потерявшихся документов. Для решения таких и похожих трудных задач в рамках датацентра и понадобится этот специалист. Как правило, компании на нем экономят и перекладывают все задачи целиком на инициаторов, получая в результате недовольных сотрудников и массу ошибок в процессах.

19. Специалисты склада. Один или несколько человек, обеспечивающие процессы приемки оборудования и прочих приобретений, постановки их на учет, хранение и выдачу.

Этот список тех, кто должен работать в датацентре, может быть и не исчерпывающий, но очень близкий к полному. Если вам очень хочется сэкономить и не нанимать такое количество людей, то нужно все равно понимать, что задачи не исчезнут, просто кому-то придется их совмещать с другой работой.

Сменность и контроль

Не самым простым вопросом в организации деятельности команды эксплуатации является график сменной работы. При его рассмотрении нужно внимательно учитывать интересы как работодателя, так и работника. Какой режим работы лучше использовать? Сутки через трое (или четверо) или более сложный график сменами по 12 часов?

С ростом датацентров и с изменением образа жизни в последние годы работодатель все меньше склонен платить за простое нахождение дежурных на объекте. Их работа все чаще подразумевает активную деятельность с начала и до конца смены, что меняет требования как к компетенциям дежурного, так и к его отношению к рабочему времени.

С точки зрения работодателя, 24-часовые смены резко снижают производительность сотрудников. Очевидно, что человек не может работать сутки без значительного перерыва, и, скорее всего, отдых будет происходить за счет работодателя. На это можно пойти при определенных условиях, например когда в регионе такой режим является единственно приемлемым для работников и просто не найти людей, согласных на другой график. В сравнительно небольших датацентрах загрузка сотрудника задачами может быть невысокой, поэтому с точки зрения эффективности может оказаться, что нет никакой разницы, спит сотрудник в какие-то часы или бессмысленно следит за мониторингом. Стоит, правда, помнить, что официальное признание факта отдыха на работе влечет за собой организацию спальных мест, изменение категории помещений, возможные визиты инспекторов и т. п.

С точки зрения работника, 24-часовая смена при условии, что ему разрешают спать во время дежурства, имеет ряд преимуществ. Ведь в этом случае можно спокойно устроиться на вторую работу в дни отдыха и удваивать свои доходы. Иногда бывает, что сотрудник совмещает две работы и в обоих случаях является дежурным датацентра. В такой ситуации оба работодателя сталкиваются с риском, скажем так, промышленного шпионажа, так как добровольно допускают в самые сердца своих датацентров работников конкурента. В принципе, такая ситуация может юридически запрещаться строкой в трудовом договоре, не допускающей подобные совмещения. В среднесрочной перспективе интересным выглядит создание между компаниями – участниками рынка некоей базы данных, проверяющей наличие в штате подобных совместителей.

Что же хорошего в 24-часовой смене? Оказывается, если составить график дежурств на год для десяти человек, основываясь на всех нормативных ограничениях по длительности беспрерывного отдыха, количеству рабочих часов в неделю и т. п., а затем одного за другим выводить сотрудников из табеля (по болезни, в отпуск и т. д.), то мы выясним, что полная комплектация штата сотрудниками возможна при одновременной работе всего шести человек (или, при долгосрочном отсутствии, четырех). Да, придется платить за переработки, но не нужно будет нанимать «запасных» сотрудников на случай массовых отпусков. Но при 12-часовой смене придется держать в штате как минимум восьмерых дежурных. Минувшая пандемия показала, насколько чувствителен может быть датацентр к помещению персонала в карантин, поэтому приведенный вопрос становится совсем не праздным. Практически приемлемым решением могут быть 12-часовые смены по умолчанию и переход на 24-часовые смены при введении в компании каких-либо ограничений наподобие пандемийных. При таком переходе также уменьшится количество контактов при передаче смен, что снизит риски помещения в карантин контактирующих коллег.

Достоинства 12-часовой смены практически равны описанным недостаткам 24-часовой. При таком графике мы получаем коллектив, более эффективно использующий рабочее время, не требующий отдыха на сон, но менее замотивированный в работе, так как дежурные получают более рваный график и практически лишают себя возможности полноценных подработок.

С рваным графиком можно справиться ведением длинных сессий, чередующихся, например, через три месяца, когда в одной сессии дежурный работает только ночные смены, а в другой – дневные. Подстроить свою жизнь вне работы при таком графике становится немного легче.

Проверка службой безопасности

Одним из деликатных вопросов при приеме на работу может быть проверка кандидатов по линии службы безопасности. Перед принятием решения необходимо тщательно проверить, не противоречит ли законодательству подобная проверка. В реальности максимально возможное количество официально разрешенной информации можно получить, обратившись в специализированные агентства. А это уже лучше, чем совсем ничего, или рекомендации с предыдущих мест работы, которым не всегда можно доверять. Я знаю случаи, когда работодатель, желая избавиться от конфликтного сотрудника быстро и без проблем, давал ему отличную письменную рекомендацию, которую тот затем использовал в новых поисках работы.

Трудно посоветовать, как поступить в подобной ситуации. Единственный совет – опираться на собственный опыт руководителя, интуицию и понимание психотипов людей, которых вы собираетесь взять в команду. Ну и не худшим вариантом будет принять риск ошибки при найме. Для этого нужно просто заранее понимать, как поступить, если нанятый сотрудник не оправдает возложенных на него ожиданий.

Медицинское освидетельствование

Один из моих любимых вопросов в беседах с дежурными инженерами, да и не только с ними: «Как часто нужно проходить медосмотр и почему?» К удивлению, сотрудники датацентра почти никогда не знают правильный ответ и идут на медосмотр, потому что «так надо». А ответ на этот вопрос очень простой – процесс делится на три части:

При организации датацентра как юридического лица и наполнении его штатного расписания проводится специализированная оценка условий труда (СОУТ), в результате которой определяются вредные и опасные факторы, воздействующие на сотрудников на рабочем месте.

Далее из действующих правовых актов Минтруда и Минздрава определяется перечень врачей и частота осмотров для каждого фактора в отдельности.

Суммируя всю полученную информацию, мы составляем таблицу, в которой для каждой единицы штатного расписания понятно ее рабочее место, а следовательно, перечень и частота необходимых проверок. Теперь нужно составить календарный график осмотров таким образом, чтобы не только все законодательные требования выполнялись, но и посещение поликлиники было удобным. Так, если посещение окулиста необходимо, например, не реже чем каждые два года, а невролога – три, логично обоих врачей проходить за один визит раз в два года.

Обычно не принято обсуждать проблему психической устойчивости сотрудников, считая это очень тонкой и личной темой. Однако, когда многомиллиардный бизнес может зависеть от поступков дежурных в ночь с субботы на воскресенье, необходимо быть полностью уверенным в людях, которые в этот момент находятся на площадке. Поэтому можно рекомендовать регулярное психиатрическое обследование на критичных должностях, а если есть возможность, то и проводить психологическое консультирование. Как бы это пафосно ни звучало, но для работающих на критически важном для компании объекте стоит подумать о выделении специалиста, занимающегося комфортом рабочей среды. Эту роль может выполнять как специалист отдела кадров, так и, в несколько упрощенном виде, администратор площадки.

После того как команда изначально сформирована на основании корпоративных критериев отбора, необходимо сразу же начать обучение сотрудников, чтобы объединить коллектив. Стоит также запланировать следующие шаги, а именно обучение для окончательной отшлифовки каждого из членов команды, чтобы весь коллектив работал как единый механизм. Про организацию процесса обучения подробнее расскажу в следующей главе.

К слову, с точки зрения координации графика прохождения медицинского освидетельствования и его бюджетирования эти активности также очень хорошо ложатся в единый подход с организацией обучения.

Но и этого недостаточно. Даже самую хорошо подобранную команду необходимо холить и лелеять. Другими словами – проверять на профессиональную пригодность, регулярно переобучать и мотивировать к дальнейшему развитию. Об этом также будет рассказано в одной из следующих глав.

В заключение этой главы стоит заметить, что с ростом датацентра неминуемо растет и количеств задач, а значит, и количество персонала. Один из подходов в прогнозировании необходимого штата описан далее в главе «Бюджетирование».

И после того как руководитель осознает весь спектр задач, связанных с обеспечением объекта дежурными, я уверен, он всерьез задумается о максимальной автоматизации выполняемых задач и постепенном переводе датацентра на обслуживание роботами.


19Источник бесперебойного питания. При кратковременном отсутствии электропитания от сети или ДГУ (дизель-генераторной установки) подключает собственное резервное хранение энергии. Чаще всего использует аккумуляторные батареи или кинетические накопители (см. ДРИБП в списке аббревиатур в конце книги). И у тех и у других есть свои плюсы и минусы.
20File Transport Protocol. До недавних пришествий разнообразных облачных сервисов именно по этому протоколу происходило перемещение электронной документации на серверы для хранения и общего доступа.
Sie haben die kostenlose Leseprobe beendet. Möchten Sie mehr lesen?