Используется «хаос-инжиниринг» для снижения уязвимости облачных вычислений к кибератакам

Облачные вычисления стали важнейшим элементом современных технологий, служа основой для глобальной связи. Они позволяют компаниям, правительствам и частным лицам использовать и создавать облачные сервисы и формируют основу для огромного спектра систем, которые мы используем каждый день, включая телекоммуникации, транспорт, здравоохранение, банковское дело и даже потоковые сервисы.

Такие системы, как и любое оборудование или программное обеспечение, подвержены сбоям и кибератакам, которые могут произойти непредсказуемо. Киберпреступники становятся еще более решительными, а их атаки все более изощренными и частыми. Одной из тактик, которые часто используют эти группы, являются распределенные атаки типа «отказ в обслуживании» (DDoS) , которые заполняют системы компаний большим количеством запросов и трафика, чем могут обработать их ИТ-системы.

Это блокирует законных пользователей от сервиса, что приводит к серьезным проблемам для компаний, включая потерю доходов и снижение лояльности клиентов. Эта проблема может вызвать серьезные трудности для таких компаний, как Google и Amazon, которые предлагают услуги облачных вычислений для размещения данных, систем и услуг потребителей.

В нашем последнем исследовании мы использовали несколько стратегий, чтобы показать, как облачные вычислительные системы могут быть фактически усилены стрессом. Мы использовали то, что называется хаос-инжинирингом и адаптивными стратегиями, которые помогают системе учиться на ошибках и кибератаках.

В своем последнем квартальном анализе угроз кибербезопасности компания Cloudflare, занимающаяся безопасностью облачных вычислений, сообщила о 65%-ном росте DDoS-атак в третьем квартале 2023 года по сравнению с предыдущим кварталом. Согласно отчету Cloudflare за второй квартал 2024 года , было совершено четыре миллиона DDoS-атак.

Помимо DDoS и других преднамеренных атак, компании, использующие облачное программное обеспечение, также уязвимы к сбоям, вызванным проблемами, начиная от проблем с подключением и заканчивая физическими сбоями сервера, некоторые из которых также могут быть результатом кибератак. Иногда даже незначительная проблема, например опечатка , может вывести из строя облачные веб-сайты.

19 июля сбои в работе датчика Falcon компании CrowdStrike привели к сбою хостов Windows, подключенных к системе облачных вычислений Microsoft Azure, что привело к глобальному сбою в работе ИТ-систем по всему миру.

Датчик Falcon, разработанный для предотвращения кибератак, не был скомпрометирован кибератакой. Сбой был вызван технической проблемой обновления. 31 июля ошибка в защите Microsoft от DDoS привела к восьмичасовому сбою в работе Azure.

Распаковка хрупкости

Разрешение крупных сбоев, подобных этим, представляет собой существенную проблему из-за сложности облака и его многочисленных зависимостей от других систем, в том числе для кибербезопасности. Внедрение надежных исправлений может занять от нескольких часов до нескольких дней или, в некоторых случаях, таких как CrowdStrike , даже больше.

Подобные инциденты демонстрируют хрупкость нашей технологической инфраструктуры в целом, но особенно облачных систем. В настоящее время решения сосредоточены на управлении последствиями этих инцидентов, а не на устранении коренных проблем путем создания более надежных и устойчивых облачных систем. Для предотвращения сбоев решающим шагом является интеграция в качестве стандарта расширенных тестов программного обеспечения для оценки его устойчивости и надежности в условиях давления.

В нашем исследовании мы помогаем потребителям облачных вычислений противостоять этим угрозам, делая именно это, делая облачные вычисления более способными выдерживать крупные атаки и сбои и продолжать функционировать. Этим работающим облачным системам также необходимо адаптироваться и учиться на предыдущих инцидентах, чтобы стать сильнее.

Мы использовали технику, называемую «хаотичной инженерией», — преднамеренные атаки и эксперименты с этими облачными программными приложениями — чтобы посмотреть, как система реагирует на такие атаки.

В одной из наших последних работ было обнаружено, что мы можем использовать эту технику для более точного прогнозирования того, как система отреагирует на атаку. Хаос-инжиниринг подразумевает преднамеренное внесение сбоев в систему и последующее измерение результатов. Эта техника помогает выявлять и устранять потенциальные уязвимости и недостатки в конструкции, архитектуре и эксплуатационных практиках системы.

Методы могут включать в себя завершение работы службы, введение задержки (временной задержки в реакции системы на команду) и ошибок, имитацию кибератак, завершение процессов или задач или имитацию изменения среды, в которой работает система, и способа ее настройки.

В недавних экспериментах мы вводили неисправности в живые облачные системы, чтобы понять, как они ведут себя в стрессовых ситуациях, таких как атаки или неисправности. Постепенно увеличивая интенсивность этих «инъекций неисправностей», мы определили максимальную точку напряжения системы.

Наше расследование выявило снижение производительности и доступности сервисов в результате. Таким образом, эти эксперименты по хаос-инжинирингу выявили проблемы, которые традиционные измерения производительности не могли обнаружить.

Извлечение уроков из хаоса

Хаос-инжиниринг — отличный инструмент для повышения производительности программных систем. Однако для достижения того, что мы называем «антихрупкостью» — систем, которые могут становиться сильнее, а не слабее под воздействием стресса и хаоса — нам необходимо интегрировать тестирование хаоса с другими инструментами, которые преобразуют системы, чтобы они становились сильнее под воздействием атак.

В нашей последней работе мы представили адаптивную структуру, которая делает именно это. Эта структура, называемая «Unfragile», использует хаос-инжиниринг для постепенного введения отказов и оценки реакции системы на эти стрессы.

Затем мы вводим новые адаптивные стратегии для устранения уязвимостей, обнаруженных с помощью хаос-инжиниринга. Это может включать в себя изменение исходного кода самого программного обеспечения для повышения его производительности. Вводя метрики производительности системы в режиме реального времени , система может стать адаптивной, поскольку потенциальные проблемы выявляются на ранней стадии и решаются.

Объединив хаос-инжиниринг с этими адаптивными стратегиями оповещения операторов об уязвимостях в режиме реального времени для их устранения, мы можем научить облачные системы не только выдерживать стресс, но и становиться сильнее благодаря ему.

Это гарантирует, что наша критическая цифровая инфраструктура станет более надежной, устойчивой и способной извлекать уроки из хаоса , чтобы лучше противостоять будущим вызовам.