Впервые опубликованный как отчет в конце 2024 года, Топ 10 OWASP 2025 для LLM-приложений стал еще одним важным проектом OWASP, реализованным благодаря усилиям большого количества экспертов в сферах искусственного интеллекта, кибербезопасности, облачных технологий и т.д., включая руководителя направления AI в Mend.io Bar-El Tayouri.
LLM все еще является новинкой на рынке, но уже начинает развиваться, а вместе с ней растет и Топ 10 OWASP для LLM-приложений. Хотя эта последняя версия все еще не ранжируется по частоте фактического использования в реальных условиях (как видно из других списков Топ 10 OWASP), было получено больше отзывов от реальных кейсов использования, примечательно, что только три категории остались неизменными с версии 2023 года.
Ниже приведен краткий обзор каждой уязвимости и ее потенциальных последствий. Информацию о смягчении последствий, предотвращении и сценариях атак для каждой уязвимости можно найти в оригинальном отчете.
Топ 10 OWASP для LLM-приложений
LLM01: Инъекция промптов
Инъекция промптов – это вредоносные входные данные, которые заставляют LLM работать ненадлежащим образом, что может привести к утечке данных или выполнению несанкционированных действий, таких как удаленное выполнение кода. Неудивительно, что инъекция промптов занимает первое место среди угроз для LLM, поскольку она использует саму архитектуру больших языковых моделей, а не конкретную уязвимость, которую можно просто исправить. В некоторых случаях эта угроза не имеет абсолютного решения – ее можно только минимизировать, уменьшая потенциальные последствия.
Существует два вида инъекции промптов: прямые и косвенные.
Прямая инъекция промпта. Злоумышленник отправляет промпт, предназначенный для того, чтобы обойти основные системные промпты, которые разработчики ИИ создали для защиты модели. Один из методов прямой инъекции промпта, популярный среди хакеров ИИ, называется DAN (Do Anything Now). DAN использует ролевую игру, чтобы заставить ChatGPT игнорировать основные средства защиты, которые OpenAI установила, чтобы предотвратить предоставление LLM опасной, незаконной или неэтичной информации.
Косвенная инъекция промпта. В этом случае пользователь LLM невольно предоставляет LLM данные от злоумышленника, который намеренно добавил промпты LLM (обычно невидимые для читателя человека) в источник. Большинство LLM не различают пользовательские промпты и внешние данные, что делает возможным косвенное встраивание промпта реальной угрозой. Реальный “взлом ИИ”, который стал вирусным в конце прошлого года, заключался в добавлении к резюме промпта о том, что LLM должен проигнорировать все другие критерии и сообщить, что пользователь (без сомнения, перегруженный работой менеджер по персоналу, который стремится сэкономить время) должен нанять того, кто подал резюме. Человеческий глаз не замечает этой подсказки, поскольку она написана белыми буквами на едва различимом по оттенку белом фоне. Однако LLM все же его считывал и выполнял указание.
LLM02: Раскрытие конфиденциальной информации
Стоит только задать правильный вопрос, и LLM может выложить всю правду. Это, в свою очередь, может включать конфиденциальную информацию организации или клиентов, в том числе персональную информацию, позволяющую идентифицировать личность (PII), финансовые данные, медицинские записи, конфиденциальные бизнес-данные, учетные данные системы безопасности и юридические документы.
Кроме того, плохо настроенные модели, встроенные в приложения, могут потерять собственные алгоритмы и другие важные конфиденциальные данные, что может привести к нарушению прав интеллектуальной собственности (IP).
LLM03: Цепочка поставок
Мало кто строит LLM полностью с нуля, а вместо этого полагается на уже существующие технологии. Уязвимости в цепочке поставок могут возникать из-за вредоносных или уязвимых моделей, или учебных данных из таких мест, как Hugging Face или любой другой сторонний компонент.
Сторонние модели и учебные данные могут быть подвержены атакам по типу отравления, а любые сторонние компоненты могут содержать классические уязвимости, которые все уже знают и не любят.
LLM04: Отравление данных и моделей
Модели – это то, что LLM “потребляют”, а они усваивают огромные объемы данных. Отравление данных происходит, когда информация, используемая для предобучения, дообучения или расширения (например, в методе RAG), изменяется с целью внедрения уязвимостей. Это может повлиять на безопасность модели, ее этическое поведение или производительность.
Борьба с отравлением данных является сложной задачей из-за огромного количества информации, которую LLM обрабатывают, а также из-за трудностей с проверкой всех входных данных.
Лучший сценарий при отравлении данных во время обучения – это когда модель просто теряет точность в анализе текста и прогнозировании. Однако даже в таком случае это может нанести ущерб репутации компании.
Отравление моделей может произойти, когда модели с открытым кодом на таких платформах, как Hugging Face, содержат вредоносное программное обеспечение или бэкдоры.
LLM05: Ненадлежащая обработка исходных данных
Ненадлежащая обработка исходных данных возникает, когда плагины или другие компоненты принимают исходные данные LLM без надлежащих мер безопасности, таких как санитизация и валидация. Это может привести к различным нежелательным последствиям, в частности межсайтовому скриптингу (XSS) или удаленному выполнению кода на серверных системах.
Один из возможных сценариев ненадлежащей обработки исходных данных:
- Злоумышленник оставляет косвенную инъекцию промпта в виде отзыва о товаре.
- LLM, используемый для генерации сводок отзывов, воспроизводит вредоносный JavaScript-код.
- В результате этот код выполняется в браузере пользователя, создавая потенциальную угрозу безопасности.
LLM06: Чрезмерная автономность
При взаимодействии с другими системами LLM должен получать только необходимые возможности и права – и ничего больше. Если модель имеет чрезмерный функционал, расширенные разрешения или слишком большую автономность, возникает уязвимость чрезмерной автономности (excessive agency).
Некоторые примеры этой уязвимости:
- Избыточный функционал. Плагин, позволяющий LLM читать файлы, также предоставляет возможность их редактирования или удаления.
- Чрезмерные разрешения. LLM, который имеет доступ только к файлам одного пользователя, может получить доступ к файлам всех пользователей.
- Чрезмерная автономность. Плагин позволяет LLM самостоятельно удалять файлы пользователя без его подтверждения.
LLM07: Утечка системного промпта
Системные промпты используются для управления поведением модели, но иногда они содержат конфиденциальную информацию или секреты, которые могут быть раскрыты. Кроме того, системные промпты могут быть настроены так, что возлагают важные задачи контроля безопасности, например, аутентификацию, на LLM, вместо использования более надежных систем. Однако утечка системного промпта не является критической проблемой, если он не содержит никакой конфиденциальной информации, которая могла бы быть использована злоумышленниками.
LLM08: Уязвимости Vector and Embedding
Уязвимости Vector and Embedding (векторов и эмбедингов) возникают при использовании метода генерации с дополнением выборки (RAG, retrieval augmented generation) в сочетании с LLM. К этой категории относятся следующие риски:
- Несанкционированный доступ и утечка данных,
- Перекрестные утечки информации между контекстами и конфликты знаний,
- Атаки на инверсию встраивания,
- Изменение поведения модели.
LLM09: Дезинформация
Даже лучшие LLM не являются безошибочными. Дезинформация может возникать из-за предвзятости в учебных данных или из-за того, что LLM компенсируют отсутствие учебных данных, создавая результат на основе статистических моделей, а не реального понимания контекста.
LLM имеют ограничения как в своих возможностях, так и в качестве их работы, но общество часто воспринимает их как универсальные источники знаний. На самом деле это не так. Если задать ChatGPT математический вопрос или попросить информацию о судебной практике, можно получить ответ, который на первый взгляд кажется правильным, но на самом деле является неточным или полностью вымышленным.
LLM10: Неконтролируемое потребление
Вычислительные ресурсы LLM делают их чрезвычайно мощными, но предоставление пользователям чрезмерного доступа к этим возможностям может привести к негативным последствиям.
Инференция – это процесс генерации ответа на запрос пользователя, ее неконтролируемое потребление может привести:
- Отказ в обслуживании (DoS),
- Финансовые убытки (из-за повышенного использования вычислительных ресурсов),
- Кражу модели,
- Ухудшение качества сервиса для обычных пользователей.
Кроме того, эти ресурсы могут стать целью для злоумышленников, которые могут перенаправить их на собственные нужды, например, для майнинга криптовалюты.
Лучшие практики для защиты LLM
Лучшие практики для моделей искусственного интеллекта будут знакомы тем, кто работает над защитой любых приложений. Санитизация и валидация входных данных, объединение в команды для оценки рисков и укрепления кода вокруг модели, отслеживание компонентов с помощью спецификации ИИ, соблюдение принципов наименьших привилегий и нулевого доверия, а также обучение пользователей и разработчиков все еще остаются краеугольными камнями безопасности приложений, даже в случае использования таких прорывных технологий, как LLM.







