Контрольный список обслуживания сервера

Прочитано: 60 раз(а)


Для эффективного обслуживания сервера администраторы должны выполнять упреждающие проверки оборудования и программного обеспечения. Любой список должен включать в себя удаление пыли, просмотр журнала и тестирование программных исправлений.

Даже при высокой производительности и избыточных функциях серверов повышенная консолидация рабочих нагрузок и ожидаемая надежность могут сказаться на серверном оборудовании.

Контрольный список обслуживания сервера должен охватывать как физические элементы, так и конфигурацию программного уровня системы. Он также должен учитывать тот факт, что тщательное обслуживание требует времени, человеко-часов и тестирования. Использование контрольного списка помогает администраторам определить свои цели и держать ИТ-специалистов на правильном пути.

сервер облако хостинг

1. Разработайте процедуру обслуживания

Администраторы серверов слишком часто упускают из виду периоды обслуживания при планировании. Не ждите, пока произойдет настоящий сбой; выделите время для планового профилактического обслуживания сервера .

Частота обслуживания зависит от возраста оборудования, центра обработки данных и объема серверов, требующих обслуживания. Например, старое оборудование, расположенное в шкафу для оборудования, нуждается в более частых проверках, чем новые серверы, развернутые в высокоэффективном центре обработки данных с воздушным фильтром и хорошим охлаждением.

Организации могут основывать графики текущего обслуживания на процедурах поставщика или стороннего поставщика; если сервисный контракт поставщика предусматривает проверку системы каждые четыре или шесть месяцев, следуйте этому графику.

2. Подготовьтесь к простою

Составьте план, прежде чем приступить к выполнению пунктов контрольного списка обслуживания сервера. Это включает в себя проверку системных журналов на наличие ошибок или событий, требующих более пристального внимания. Если системные журналы указывают на ошибки с определенным модулем памяти, вам следует заказать сменный модуль памяти с двойным расположением выводов (DIMM) и предоставить его для установки. Аналогичным образом, если доступны исправления/обновления встроенного ПО, ОС или агента, протестируйте и проверьте их в первую очередь перед запланированным периодом обслуживания.

Разработайте четкий план по отключению системы и возвращению ее в эксплуатацию. До виртуализации серверу и его резидентному приложению требовалось время простоя, чтобы приспособиться к периоду обслуживания, что вынуждало администраторов выполнять обслуживание ночью или по выходным.

Виртуализированные серверы обеспечивают миграцию рабочей нагрузки вместо простоя, поэтому администраторы могут переносить приложения на другие серверы, и они останутся доступными, когда в основной хост-системе будет выполняться техническое обслуживание сервера. Перед обслуживанием узнайте, куда должны переместиться виртуальные машины, перенесите виртуальные машины в выбранные системы и убедитесь, что каждая рабочая нагрузка работает, прежде чем отключать сервер для обслуживания.

В этот момент администраторы могут выключить сервер и удалить его из стойки.

3. Осмотрите пути воздушного потока

После отключения сервера визуально осмотрите его внешние и внутренние пути воздушного потока. Удалите любые скопления пыли и мусора, которые могут препятствовать охлаждению воздуха.

Начните с входных и выходных отверстий для наружного воздуха, затем перейдите к корпусу системы, осмотрев радиатор ЦП и блоки вентиляторов, модули памяти и все лопасти охлаждающих вентиляторов и пути воздуховодов. Обязательно очищайте сервер, извлекая его из стойки. Удалите пыль или мусор на подходящем, защищенном от статического электричества рабочем месте с помощью чистого и сухого сжатого воздуха.

Удаление пыли — процесс не новый, но все же необходимый. Пыль — это теплоизолятор, поэтому ее удаление становится еще более важным, поскольку альтернативные схемы охлаждения и рекомендации ASHRAE повысили рабочую температуру в центре обработки данных . Пыль и другие препятствия для воздушного потока заставляют сервер потреблять больше энергии и даже могут привести к отказу компонентов, которого можно было избежать.

4. Проверьте локальные жесткие диски

Серверы полагаются на внутренние жесткие диски для загрузки, запуска и хранения рабочих нагрузок, а также пользовательских данных. Проблемы с дисковыми носителями снижают производительность и стабильность рабочих нагрузок и приводят к преждевременным отказам дисков. Используйте такие инструменты, как утилита Check Disk, чтобы проверить целостность диска и попытаться восстановить на нем поврежденные сектора.

Магнитные носители не идеальны; общие проблемы включают поврежденные сектора и фрагментацию. RAID имеет большое значение для сохранения целостности данных после ошибок хранения, но меньшие по размеру стоечные серверы высотой 1U не обеспечивают достаточного физического пространства для развертывания массива дисков.

Фрагментация диска никуда не исчезнет, ​​пока файловая система NT и таблица размещения файлов , файловые системы используют дисковое пространство первыми доступными кластерами. Фрагментация может замедлить работу диска сервера и вызвать сбои. Утилита Optimize-Volume Windows Server 2016 выполняет дефрагментацию, обрезку и обработку уровня хранилища.

5. Проверьте данные журнала и события

Серверы записывают огромное количество информации об инцидентах в журналах событий. Ни один контрольный список обслуживания сервера не будет полным без тщательного анализа системных, вредоносных и других журналов событий . Конечно, критические системные проблемы должны сразу же привлечь внимание администраторов и технических специалистов, но бесчисленное количество мелких проблем может сигнализировать о хронических проблемах.

Изучая журналы, администраторы должны проверять настройку отчетов и проверять правильных получателей предупреждений и сигналов тревоги. Например, если технический специалист покинет группу серверов, ему потребуется обновить систему отчетности сервера.

Также дважды проверьте способы связи; сообщение о критической ошибке на адрес электронной почты компании технического специалиста является спорным, если ошибка возникает в нерабочее время.

Когда проверка журналов выявляет хронические или повторяющиеся проблемы, упреждающее расследование может решить проблему до того, как она обострится. Если журнал сервера сообщает об устранимых ошибках в модуле памяти, это не вызовет критических сигналов тревоги. Но если есть повторяющиеся случаи, сигнализирующие о проблемах с модулем, администраторы могут выполнить более подробный анализ для выявления надвигающихся сбоев.

Если проблемы недостаточно серьезны, чтобы отключить сервер, администраторы могут вернуть сервер в рабочее состояние до тех пор, пока не будет заменено оборудование.

6. Тестовые исправления и обновления

Программный стек сервера — BIOS, ОС, гипервизоры, драйверы и приложения — должны работать вместе. К сожалению, программный код редко бывает без проблем, поэтому части этой головоломки часто исправляются или обновляются для исправления ошибок, повышения безопасности, упрощения взаимодействия и повышения производительности.

Никакое производственное программное обеспечение не должно иметь автоматических обновлений. Администраторы должны определить, требуется ли исправление или обновление, а затем тщательно оценить и протестировать изменение.

Разработчики программного обеспечения не могут протестировать каждую возможную комбинацию аппаратного и программного обеспечения, поэтому выбирайте исправления и обновления с умом, чтобы избежать проблем с производительностью или перерывов в рабочем процессе. Например, исправление агента мониторинга может вызвать проблемы с важной рабочей нагрузкой, поскольку новый агент использует больше полосы пропускания, чем ожидалось.

Переход на DevOps с небольшими и более частыми обновлениями увеличивает вероятность возникновения проблем. Организации по-прежнему должны тестировать любое исправление или обновление в лаборатории, прежде чем развертывать его в песочнице или тестовой установке, и всегда имеют возможность восстановить исходную конфигурацию программного обеспечения.

7. Запишите любые системные изменения

Многое может произойти с сервером во время периода обслуживания, например, изменения оборудования, программного обеспечения или конфигурации системы. Когда администраторы заполнили контрольный список обслуживания сервера, им жизненно важно перепроверить и записать любое новое состояние системы. Например, изменение сетевого адаптера, добавление или замена модулей DIMM или обновление ОС меняет конфигурацию системы.

Организациям, которые зависят от инструментов управления конфигурацией системы, может потребоваться обновить или обнаружить любые изменения, записав эти изменения в базу данных управления конфигурацией, прежде чем система будет разрешена обратно в эксплуатацию. Администраторы должны обновить любое принудительное или желаемое состояние конфигурации, чтобы разрешить изменения.

Также проверьте параметры безопасности системы, такие как настройки брандмауэра , версии защиты от вредоносных программ или частоту сканирования и настройки обнаружения вторжений. Проверки безопасности гарантируют, что изменения системного ПО непреднамеренно не выставят какие-либо поверхности для атак, которые были закрыты в предыдущей конфигурации.

Не забудьте обновить любые резервные копии системы или содержимое аварийного восстановления (DR), как только сервер снова будет подключен к сети.

Убедитесь, что частота резервного копирования/аварийного восстановления сервера остается неизменной, если только какие-либо связанные параметры не должны быть отрегулированы специально для отражения нового варианта использования сервера.

сервер облако хостинг



Новости партнеров