Сотни серверов LLM раскрывают корпоративные и медицинские данные

В новом отчете говорится, что инструменты автоматизации LLM и векторные базы данных могут быть переполнены конфиденциальными данными и уязвимы для кражи.

Сотни серверов-конструкторов больших языковых моделей (LLM) с открытым исходным кодом и десятки векторных баз данных допускают утечку конфиденциальной информации в открытый Интернет.

Поскольку компании спешат интегрировать ИИ в свои бизнес-процессы, они иногда уделяют недостаточно внимания тому, как защитить эти инструменты и информацию, которую они им доверяют. В новом отчете исследователь безопасности Legit Нафтали Дойч продемонстрировал это, просканировав Интернет на предмет двух видов потенциально уязвимых служб ИИ с открытым исходным кодом (OSS) : векторные базы данных, которые хранят данные для инструментов ИИ, и конструкторы приложений LLM, в частности, программу с открытым исходным кодом Flowise. Расследование выявило множество конфиденциальных личных и корпоративных данных , неосознанно раскрытых организациями, которые спотыкаются, чтобы присоединиться к революции генеративного ИИ.

«Многие программисты видят эти инструменты в Интернете, а затем пытаются настроить их в своей среде», — говорит Дойч, но эти же программисты оставляют без внимания вопросы безопасности.

Сотни неисправленных серверов Flowise

Flowise — это low-code-инструмент для создания всех видов приложений LLM. Он поддерживается Y Combinator и имеет десятки тысяч звезд на GitHub.

Будь то бот поддержки клиентов или инструмент для генерации и извлечения данных для программирования и других задач, программы, которые разработчики создают с помощью Flowise, как правило, имеют доступ и управляют большими объемами данных. Поэтому неудивительно, что большинство серверов Flowise защищены паролем.

Однако пароль не является достаточно надежным средством защиты.