Почему управление сетью и IT терпит неудачу

Никто не доволен тем, как осуществляется управление сетью и ИТ. Мониторинг производительности приложений (APM) или «наблюдаемость» может быть ключом ко всему.

По мнению почти 100 ИТ-директоров, 39% линейных менеджеров не полностью удовлетворены приложениями, предоставляемыми ИТ-отделами. ИТ-директора говорят, что больше всего проблем для линейных менеджеров создают сбои приложений, что для них означает как реальные простои, так и ситуации, когда производительность не соответствует бизнес-целям. Чуть менее трех четвертей тех же самых ИТ-директоров говорят, что удовлетворение потребностей линейных менеджеров является обязанностью их систем управления сетями и ИТ, а также персонала, и только десять процентов ИТ-директоров говорят, что они удовлетворены выполнением ответственности. Почему? Потому что, говорят ИТ-директора, они управляют неправильно.

Частично проблема заключается в том, что она связывает цели управления сетью и ИТ с тем, что важно для пользователей. Пользователей волнует, насколько хорошо работают их приложения. Вы можете представить себе, что старшие менеджеры сидят и обсуждают ключевые показатели эффективности (KPI) и качество обслуживания (QoS), в то время как операционные сотрудники говорят о таких вещах, как качество взаимодействия (QoE) и время безотказной работы. Мы здесь в одной вселенной? Вероятно, нет, потому что с самого начала сложно найти своего рода коэффициент преобразования, который преобразует показатели управления операциями в показатели удовлетворенности пользователей. Только треть ИТ-директоров считают, что они справились с этим, а еще треть даже не уверена, что это возможно. У меня нет обширных данных об отношении линейного руководства, но имеющиеся у меня сведения говорят о том, что более 80% линейных менеджеров считают, что ИТ- и сетевые организации «не видят» всех проблем, влияющих на их работу.

Я не хочу здесь говорить о том, сколько QoS может уместиться в одном KPI; это аргумент, который оказался практически бесполезным для обеих сторон. Вместо этого я хочу сосредоточиться на последнем моменте, а именно на том факте, что оперативные сотрудники даже не видят важных вещей. Как такое возможно, учитывая все то, что собрано в системах управления и журналах? Удивительно, но на многих предприятиях никто на самом деле не задается этим вопросом. Фактически, только 35 из 198 предприятий, которые сказали мне, что у них было отключение линии/ИТ, сказали, что была конкретная команда или даже человек, который должен был преодолеть этот разрыв. Те, кто это сделал, назвали в качестве основной причины недовольства сотрудников одну проблему — поляризацию системы управления.

В среднем эти 35 предприятий заявили, что у них есть пять различных систем управления и связанный с ними операционный персонал: один управляет оборудованием центра обработки данных, один управляет облаком, один управляет глобальной сетью, один отвечает за поддержку связи в удаленных офисах и т. д. и один для приложений. Порядок, в котором я их представил, является средним из порядка, в котором их предлагали 35 предприятий, и большинство признало, что они были перечислены так, как пришли на ум, то есть в порядке их внутренней важности. Проблема, по мнению почти всех 35 участников, заключается в том, что ни одна система не отражает состояние основных ИТ-ресурсов пользователя, и не существует последовательной стратегии для создания представления со стороны пользователя.

Конечно, для этого есть причина. Почти все специалисты по ИТ и сетевым операциям согласны с тем, что их процессы управления основаны на предупреждениях о проблемах. Эти специалисты получают предупреждение — сообщение об ошибке, в котором говорится, что с ИТ-элементами, находящимися под их контролем, что-то не так. Они выполняют определение/изоляцию проблемы и устраняют ее. Это ежедневный процесс для большинства предприятий, и неудивительно, что он определяет как выбор инструментов, так и способ определения методов работы. Конечно, подавляющее большинство этих предупреждений лишь косвенно связано с качеством обслуживания пользователя, и многие вещи, влияющие на качество взаимодействия, не вызывают предупреждений. Кроме того, некоторые условия, видимые ИТ-персоналу и сетевому персоналу, вызывают проблемы QoE, которые не распознаются, поскольку условия не коррелируют из-за разделения управления.

Значит, нам нужно одно стекло, как говорится? Проблема, по словам 35 предприятий, заключается в том, что единственное оконное стекло обычно оказывается матовым. Или, возможно, взгляд сквозь замороженные глазные яблоки. Общая консоль управления, получающая оповещения от наших пяти гипотетических систем управления, может отображать их, но кому? Кто, как говорится, будет следить за самой охраной? По словам 35 предприятий, на которых есть люди, ответственные за общее качество обслуживания, это не означает, что у них есть люди, которые могут понять все эти взгляды руководства. Им нужна другая стратегия или, еще лучше, несколько стратегических шагов.

Где можно получить наилучшее представление о QoE? По мнению наших 35 предприятий, это происходит на уровне приложений, а это означает, что мониторинг производительности приложений (APM) или « наблюдаемость » должен быть ключом ко всему. С помощью APM мы сможем отслеживать работу по мере ее перемещения по сети, облаку и центру обработки данных, видя каждую точку сбоя или задержки, отслеживая каждую тенденцию. Максимальная прозрачность с точки зрения пользователя, способ измерения качества обслуживания.

Что ж, хорошая новость заключается в том, что нашим специалистам не нужно контролировать пять различных систем APM. Плохая новость заключается в том, что обычно в каждой из технологических областей, которые я упомянул в последнем абзаце, есть по одному, и ни одна из них не имеет полной видимости. Хороший APM должен основываться на «зондах», встроенных в программное обеспечение для регистрации активности и поддержки временного анализа реальных рабочих процессов приложений. Многие предприятия заявляют, что используют APM, но менее пятой из них говорят, что у них есть датчики во всех ключевых приложениях, способные отслеживать работу через домены других четырех систем управления. Великая стратегия выравнивающего управления, APM, по большей части слепа, поэтому она также не может эффективно использовать отдельные стекла.

К чему это приводит предприятия, просто и печально. Даже те 35 предприятий, которые имеют некоторое представление об общей производительности в отношении пользователей линий, говорят, что они получают мнение пользователей о линиях от… пользователей линии. Кто-то звонит в службу поддержки. Который из? Это зависит от решения звонящего. Они не могут подключиться к своему приложению, так что, возможно, сеть не работает, или, может быть, приложение, или облако, или центр обработки данных… или, может быть, это пришельцы из космоса стреляют космическими лучами? Дело в том, что «тревога» здесь генерируется техническим дилетантом, но почти наверняка ею управляет тот, кто, по мнению дилетанта, несет ответственность. Сделайте паузу, пока хор тридцати пяти предприятий поет: «Два разных мира, мы живем в двух разных мирах», говоря о сети и информационных технологиях, или, может быть, даже «Пять разных миров», если мы хотим точности систем управления.

Отдельные стратегии управления создают отдельные неудачи. Невозможно объединить управление сетью и ИТ без чего-то, что можно объединить, а это означает, что мы должны сделать APM реальным и полным, способным стать универсальным контактным лицом службы поддержки для пользователей и координаторами реагирования для всех этих разрозненных управленческих команд. Сколько из этих 35 предприятий предлагают своим группам реагирования пользователей подход, ориентированный на APM? Как вы уже догадались… ноль. Это должно измениться, иначе мы запутаемся, когда говорим о поддержке конечных пользователей с помощью наших сетей и ИТ.