Как измерить реальное влияние сбоев в работе центров обработки данных на бизнес

Прочитано: 129 раз(а)


Бинарные метрики «вверх» или «вниз» не отражают реальную ситуацию. Вот как оценить фактическое влияние сбоев в работе центров обработки данных на бизнес.

Когда центр обработки данных выходит из строя, главный вопрос заключается не в том, остановился ли бизнес, а в том, насколько сильно это повлияло на него. Традиционные двоичные метрики (работает/не работает, сломался/не работает) не отражают нюансы современной бизнес-деятельности, где сбои приводят к различным нарушениям в работе различных систем и процессов.

Оценка влияния сбоев в работе центров обработки данных на непрерывность бизнеса требует структурированного подхода, выходящего за рамки простых проверок доступности. Организациям необходимы фреймворки, позволяющие оценивать частичные сбои, снижение производительности и каскадные эффекты во взаимосвязанных системах.

В этой статье описывается практическая четырехэтапная методология отслеживания последствий сбоев, которая позволяет принимать более обоснованные решения по восстановлению и планировать будущее.

Что такое непрерывность бизнеса и почему ее сложно измерить?

В контексте центров обработки данных непрерывность бизнеса — это способность организации продолжать работу после инцидента, например, пожара, повреждающего центр обработки данных , атаки программ-вымогателей, делающей критически важные данные недоступными, или физического нарушения безопасности.

Легко рассуждать абстрактно о непрерывности бизнеса. Однако на практике зачастую гораздо сложнее определить, сохраняет ли бизнес непрерывность после сбоя в работе центра обработки данных и в какой степени, из-за следующих факторов:

  • Несколько систем : предприятия обычно используют множество ИТ-систем, некоторые из которых могут оставаться работоспособными, а другие могут выйти из строя после инцидента. Сколько систем должно выйти из строя, чтобы нарушить непрерывность бизнеса? Этот вопрос часто субъективен.

  • Определение критических процессов : усилия по оценке непрерывности бизнеса обычно сосредоточены на том, продолжают ли работать «критические» процессы. Однако то, что считается критическим процессом, может быть субъективным.

  • Частичные отказы : иногда сбой в работе центра обработки данных не приводит к полному отключению системы или процесса. Он может просто реагировать медленнее или периодически быть недоступным. Опять же, определение приемлемого уровня снижения производительности, а какой выходит за рамки непрерывности бизнеса, может быть сложной задачей.

  • Сбор данных : сбор данных, необходимых для отслеживания доступности и производительности системы после инцидента, может быть сложным, особенно если из-за сбоя инструменты мониторинга становятся недоступными.

Зачем нужны меры по отслеживанию непрерывности бизнеса в центрах обработки данных

Несмотря на эти проблемы, мониторинг результатов обеспечения непрерывности бизнеса имеет решающее значение для операторов центров обработки данных и предприятий, чья деятельность зависит от центров обработки данных.

Основная причина проста: понимание влияния сбоя на непрерывность бизнеса помогает организациям реагировать эффективнее. Чем лучше вы понимаете масштаб инцидента и его серьёзность для бизнеса, тем лучше вы готовы определить приоритетность восстановления.

Кроме того, оценка влияния сбоя на непрерывность бизнеса может помочь в планировании аварийного восстановления в будущем. Это также может играть важную роль в обеспечении соответствия требованиям, поскольку некоторые нормативные акты требуют сообщать об определённых типах сбоев.

Прагматичный подход к измерению непрерывности бизнеса

Отслеживание непрерывности бизнеса таким образом, чтобы обеспечить детальное представление последствий каждого сбоя, представляет собой многоэтапный процесс.

1. Определите критические системы

Во-первых, организации необходимо определить, какие системы она считает критически важными для обеспечения непрерывности бизнеса. Опять же, это может быть субъективным, поэтому важно решить, что считается критически важным, до того, как произойдёт сбой. Это системы, доступность и производительность которых организация будет отслеживать для оценки непрерывности бизнеса.

2. Определите показатели непрерывности бизнеса

Определив, какие системы подлежат мониторингу, компания должна решить, какие конкретные показатели она будет отслеживать для мониторинга этих систем.

Метрики могут представлять собой простые показатели доступности, отслеживающие доступность системы. Для систем, производительность которых не подвержена колебаниям, этого может быть достаточно.

Для других, более сложных систем лучше всего отслеживать показатели производительности, например, сколько времени требуется системе для ответа на запросы и сколько ошибок она генерирует.

3. Установите пороговые значения непрерывности

Поскольку определение сбоя или перерыва может быть субъективным, важно установить четкие стандарты, определяющие, какие уровни недоступности или снижения производительности квалифицируются как нарушение непрерывности бизнеса.

Аналогичным образом определите, сколько критически важных сервисов должно выйти из строя или испытать значительное снижение производительности, чтобы вызвать сбой в работе бизнеса. Возможно, вы сочтете отказ одного важного сервиса достаточным. Но вы можете решить, что непрерывность бизнеса сохраняется до тех пор, пока не выйдут из строя сразу несколько сервисов.

4. Внедрение инструментов сбора данных

Выбор точного способа сбора данных о непрерывности бизнеса — последний критически важный этап процесса. В некоторых случаях инструментов мониторинга и наблюдения , которые организация уже использует для отслеживания состояния и производительности систем, может быть достаточно. Но важно учитывать, сохранят ли эти инструменты работоспособность при сбое в работе центра обработки данных. Если существует вероятность их выхода из строя вместе с центром обработки данных, целесообразно инвестировать во внешние решения для мониторинга.

Внедрение этих планов и решений позволяет получить четкое и наглядное представление о взаимосвязи между состоянием центра обработки данных и непрерывностью бизнеса — и это должно быть реальной целью каждого плана аварийного восстановления и обеспечения непрерывности бизнеса.

Измерение способствует принятию лучших решений

Организации, внедряющие комплексные системы оценки непрерывности бизнеса, получают важнейшее преимущество: возможность принимать решения на основе данных в сложных ситуациях. Вместо того чтобы полагаться на интуицию или неполную информацию во время сбоя, руководители могут оценить реальные последствия для бизнеса, рационально распределить ресурсы и эффективно взаимодействовать с заинтересованными сторонами.

Стоимость внедрения этой системы минимальна по сравнению с потенциальными потерями от неэффективного управления сбоями. По мере того, как бизнес становится всё более цифровым, способность количественно оценивать и сообщать о последствиях сбоев позволит отделить устойчивые организации от тех, которым сложно восстановиться после неизбежных сбоев.

ГК Юзтех и Orion soft создадут решение для эффективного управления виртуальной инфраструктурой ЦОД



Новости партнеров