Институт программной инженерии (SEI) Университета Карнеги-Меллон и OpenAI опубликовали официальный документ, в котором говорится, что большие языковые модели (LLM) могут быть полезными для специалистов по кибербезопасности, но их следует оценивать с использованием реальных и сложных сценариев, чтобы лучше понять возможности и риски технологии. LLM лежат в основе современных платформ генеративного искусственного интеллекта (ИИ), таких как Gemini от Google, Bing AI от Microsoft и ChatGPT, выпущенные OpenAI в ноябре 2022 года.
Эти платформы принимают запросы от пользователей-людей, используют глубокое обучение на больших наборах данных и создают правдоподобный текст, изображения или код. В прошлом году количество заявок на получение степени LLM резко возросло в таких отраслях, как творческое искусство, медицина, право, разработка и приобретение программного обеспечения.
Перспектива использования LLM для обеспечения кибербезопасности на заре своего существования становится все более заманчивой. Растущая технология кажется подходящим мультипликатором силы для насыщенной данными, глубоко технической и зачастую трудоемкой области кибербезопасности. Добавьте к этому необходимость оставаться впереди кибератак, владеющих LLM, включая субъектов, связанных с государством, и соблазн станет еще ярче.
Тем не менее, трудно понять, насколько эффективны LLM в кибероперациях или насколько рискованно их использование правозащитниками. Разговор об оценке способностей LLM в любой профессиональной области, похоже, сосредоточен на их теоретических знаниях, таких как ответы на стандартные экзаменационные вопросы. Одно предварительное исследование показало, что GPT-3.5 Turbo справился с общим экзаменом по тестированию на проникновение.
LLM могут быть превосходны в запоминании фактов, но этого недостаточно, согласно статье SEI и OpenAI «Соображения по оценке больших языковых моделей для задач кибербезопасности».
«LLM может знать многое, — говорит Сэм Перл, старший аналитик по кибербезопасности в отделе CERT SEI и соавтор статьи, — но знает ли он, как правильно развернуть все в правильном порядке и как найти компромиссные решения?» »
Сосредоточение внимания на теоретических знаниях игнорирует сложность и нюансы реальных задач кибербезопасности. В результате специалисты по кибербезопасности не могут знать, как и когда включать LLM в свою деятельность.
Решение, согласно документу, состоит в том, чтобы оценивать LLM по тем же отраслям знаний, по которым будет проверяться человек-оператор кибербезопасности: теоретические знания или базовая информация из учебников; практические знания, такие как решение автономных проблем кибербезопасности; и прикладные знания или достижение целей более высокого уровня в открытых ситуациях.
Проверить человека таким образом достаточно сложно. Тестирование искусственной нейронной сети представляет собой уникальный набор препятствий. В такой разнообразной области, как кибербезопасность, сложно даже определить задачи. «Атака на что-либо сильно отличается от проведения криминалистической экспертизы или оценки файла журнала», — сказал Джефф Дженнари, руководитель группы и старший инженер подразделения SEI CERT и соавтор статьи. «Каждая задача должна быть тщательно продумана и должна быть разработана соответствующая оценка».
После того как задачи определены, оценка должна задать тысячи или даже миллионы вопросов. LLM нужно такое количество, чтобы имитировать дар человеческого разума к семантической точности. Для генерации необходимого объема вопросов потребуется автоматизация. Это уже осуществимо для теоретических знаний.
Но инструментов, необходимых для создания достаточного количества практических или прикладных сценариев, а также для взаимодействия LLM с исполняемой системой, не существует. Наконец, вычисление показателей всех этих ответов на практические и прикладные тесты потребует новых критериев правильности.
Несмотря на то, что технология развивается, в официальном документе представлена основа для разработки реалистичных оценок кибербезопасности программ LLM, которая начинается с четырех всеобъемлющих рекомендаций:
- Определите реальную задачу для оценки.
- Представляйте задачи правильно.
- Сделайте оценку достоверной.
- Оформляйте результаты соответствующим образом.
Шинг-Хон Лау, старший исследователь безопасности искусственного интеллекта в подразделении CERT SEI и один из соавторов статьи, отмечает, что это руководство призывает отойти от сосредоточения внимания исключительно на LLM в области кибербезопасности или любой другой области. «Нам нужно перестать думать об оценке самой модели и перейти к оценке более крупной системы, содержащей модель, или к тому, как использование модели расширяет человеческие возможности».
Авторы SEI полагают, что LLM в конечном итоге повысят роль операторов кибербезопасности в вспомогательной роли, а не в автономной работе. Несмотря на это, программы LLM все равно необходимо будет оценивать, сказал Дженнари. «Киберпрофессионалам придется выяснить, как лучше всего использовать LLM для выполнения задачи, а затем оценить риск такого использования. Сейчас трудно ответить ни на один из этих вопросов, если вашим доказательством является способность LLM отвечать на вопросы, основанные на фактах.»
SEI уже давно применяет инженерную строгость к кибербезопасности и искусственному интеллекту. Объединение двух дисциплин при изучении оценок LLM — это один из способов, с помощью которых SEI возглавляет исследования в области кибербезопасности ИИ. В прошлом году SEI также создала Группу реагирования на инциденты безопасности ИИ (AISIRT), чтобы предоставить Соединенным Штатам возможность устранять риски, связанные с быстрым ростом и широким использованием ИИ.
В прошлом году OpenAI обратилась в SEI по поводу оценок кибербезопасности LLM, стремясь лучше понять безопасность моделей, лежащих в основе ее генеративных платформ искусственного интеллекта. Соавторы статьи OpenAI Джоэл Пэриш и Гириш Састри поделились своими знаниями о кибербезопасности LLM и соответствующей политике. В конечном счете, все авторы надеются, что статья положит начало движению к практикам, которые могут помочь тем, кто решает, когда использовать LLM в кибероперациях.
«Политикам необходимо понять, как лучше всего использовать эту технологию в миссии», — сказал Дженнари. «Если у них будет точная оценка возможностей и рисков, у них будет больше возможностей для эффективного их использования».