Восстановление бизнеса: забытая ИТ-метрика

Прочитано: 65 раз(а)


Восстановление бизнеса — критически важный показатель для измерения эффективности ИТ-отдела ЦОД. Но его часто игнорируют в пользу традиционных KPI.

Традиционно, такие ключевые показатели эффективности, как скорость изменений, качество обслуживания и скорость обновлений, составляли основу измерения эффективности ИТ. Сегодня я призываю руководителей ИТ рассмотреть еще одну, критически важную для бизнеса, но часто упускаемую из виду или забываемую ИТ-метрику: восстановление бизнеса.

Недавний  сбой CrowdStrike в июле 2024 года, затронувший более 8,5 миллионов устройств Microsoft Windows и приведший к убыткам свыше 1 миллиарда долларов, выявил уязвимости в планировании устойчивости центров обработки данных по всему миру.

Очевидно, что операционное восстановление стало более важным, чем когда-либо. Тем не менее, время восстановления часто упускается из виду и может сильно варьироваться в зависимости от технологий, используемых в центрах обработки данных. В этой статье мы рассмотрим ключевые показатели, которые помогут оценить эффективность восстановления бизнеса. Вы также узнаете, почему имеющиеся у вас инструменты и стратегии могут существенно повлиять на время восстановления. 

Но давайте вернемся на минуту и ​​рассмотрим основы.

Что такое непрерывность бизнеса?

Непрерывность бизнеса относится к способности организации поддерживать операции во время и после катастрофы или другого сбоя (например, вируса-вымогателя или другой кибератаки). Это должна быть широкая, общеорганизационная дисциплина, которая включает, но не ограничивается: 

  • Оценка рисков и анализ влияния на бизнес 

  • Технология и стратегия резервного копирования данных и аварийного восстановления (DR) 

  • Документирование ролей и обязанностей сотрудников 

  • Технологии и стратегия безопасности ИТ 

  • Избыточная инфраструктура/энергия

  • Физическая установка / ОВКВ 

  • Физическая безопасность

  • Управление поставщиками/цепочками поставок.

Однако в недавнем исследовании LevelBlue (ранее AT&T Cybersecurity) 69% респондентов заявили, что  киберустойчивость не является приоритетом всей организации .

Если это относится к вашей организации, то привлечение ключевых заинтересованных сторон по всей организации и  вовлечение их  в планирование обеспечения непрерывности бизнеса и/или киберустойчивости следует считать вашим главным приоритетом.

Масштаб плана обеспечения непрерывности бизнеса центра обработки данных будет определяться конкретными требованиями восстановления организации. Однако стратегия и технология резервного копирования и восстановления после сбоя, очевидно, имеют основополагающее значение для восстановления нормальной работы бизнеса после сбоя.

Итак, давайте рассмотрим этот фрагмент более подробно. 

Три ключевых показателя восстановления бизнеса

Чтобы минимизировать влияние простоя ИТ на бизнес, вам необходимо точно знать, сколько времени потребуется для восстановления бизнес-операций после сбоя. Следующие показатели необходимы менеджерам центров обработки данных для точного установления сроков восстановления: 

  1. Целевое время восстановления (RTO) : максимально приемлемое время восстановления систем после сбоя. 

  2. Целевая точка восстановления (RPO) : максимально допустимый объем потери данных (выраженный во времени между резервными копиями). 

  3. Среднее время восстановления (MTTR) : среднее время, необходимое для восстановления полной функциональности системы. 

Понимание этих показателей также является лучшим способом для менеджеров центров обработки данных улучшить существующие планы, оправдать инвестиции в новые технологии, расставить приоритеты восстановления рабочей нагрузки на основе бизнес-требований и т. д. Обратите внимание, что иногда эти показатели будут иметь разный приоритет в зависимости от вашей ситуации — не всегда лучше сосредоточиться на RTO, несмотря на распространенные заблуждения.

Резервное копирование и аварийное восстановление напрямую в облако

Как было отмечено выше, технологии резервного копирования и аварийного восстановления, которые вы используете, могут оказать значительное влияние на время восстановления. Технологии резервного копирования и аварийного восстановления, которые создают и хранят резервные копии в формате, который легко монтируется как виртуальная машина, приобрели популярность за последнее десятилетие. Эти инструменты значительно улучшают RTO, предоставляя менеджерам центров обработки данных способ быстро и легко восстанавливать критические операции после инцидента.

Однако важно отметить, что инструменты резервного копирования и аварийного восстановления созданы по-разному.

Например, многие из более ранних продуктов, которые появились на рынке, полагаются на резервное копирование на основе «образов». Эти инструменты выполняют свою работу, но они могут быть крайне неэффективны как с точки зрения емкости хранилища, так и с точки зрения передачи данных.

Это потому, что инструменты на основе образов выполняют дедупликацию данных на уровне гипервизора, а не на уровне файла (или даже субфайла). В результате они просто не могут обеспечить производительность дедупликации данных других, более современных инструментов. Мы также не говорим о незначительной разнице. Продукты на основе образов могут быть до 60 раз менее эффективны, чем другие инструменты резервного копирования и аварийного восстановления.

Это ограничение объясняет, почему продукты на основе образов требуют дорогостоящих локальных устройств для правильной работы. Эти устройства служат промежуточной площадкой для резервных копий перед отправкой за пределы площадки и для запуска машин восстановления во время сбоя. Это была стандартная операционная процедура, пока злоумышленники не начали специально нацеливаться на эти устройства, чтобы ограничить возможности организаций по восстановлению данных и операций после кибератаки. Нехорошо.

Современное программное обеспечение для резервного копирования и аварийного восстановления

Современные инструменты резервного копирования и восстановления после сбоев выполняют дедупликацию на уровне файлов или даже субфайлов, обеспечивая гораздо более высокие показатели дедупликации. Это делает инкрементальные резервные копии чрезвычайно легкими, позволяя выполнять резервное копирование напрямую в облако и устраняя необходимость в локальном устройстве. Повышенная производительность дедупликации также означает, что вы можете делать резервные копии чаще и хранить больше точек восстановления для соответствия строгим RPO, не завышая расходы на хранение. 

При оценке инструментов резервного копирования и восстановления после сбоев подумайте, облегчит ли продукт вашу жизнь. Например, многие современные продукты резервного копирования предлагают неизменяемое резервное копирование. Однако методы, доступные для обеспечения неизменяемости, сильно различаются. В некоторых случаях потребуются дополнительные инвестиции в оборудование и постоянное управление сохранением. No bueno! Другие продукты обеспечивают постоянную неизменяемость без необходимости дополнительного управления. Отлично! 

Другим важным соображением является модель доставки. Вам нужно будет тратить время на установку обновлений и исправление уязвимостей или это будет происходить за вас в фоновом режиме? Инструменты резервного копирования и восстановления, предоставляемые как программное обеспечение как услуга (SaaS), снимают с техников все эти заботы, позволяя им сосредоточиться на более важных задачах. Есть много других соображений, но вы поняли идею. Выбранные вами инструменты резервного копирования и восстановления могут оказать большое влияние на повседневную работу техников. Выбирайте мудро, поскольку эффективность техников = повышенная производительность = повышенный доход. 

Хакеры украли данные 36 миллионов клиентов Xfinity



Новости партнеров