Вперше опублікований як звіт наприкінці 2024 року, Топ 10 OWASP 2025 для LLM-додатків став ще одним важливим проєктом OWASP, реалізованим завдяки зусиллям великої кількості експертів у сферах штучного інтелекту, кібербезпеки, хмарних технологій тощо, включаючи керівника напряму AI в Mend.io Bar-El Tayouri.
LLM все ще є новинкою на ринку, але вже починає зростати, а разом з нею зростає й Топ 10 OWASP для LLM-додатків. Хоча ця остання версія все ще не ранжується за частотою фактичного використання в реальних умовах (як видно з інших списків Топ 10 OWASP), було отримано більше відгуків від реальних кейсів використання, примітно, що лише три категорії залишилися незмінними з версії 2023 року.
Нижче наведено короткий огляд кожної вразливості та її потенційних наслідків. Інформацію про пом’якшення наслідків, запобігання та сценарії атак для кожної вразливості можна знайти в оригінальному звіті.
Топ 10 OWASP для LLM-додатків
LLM01: Ін’єкція промптів
Ін’єкція промптів – це шкідливі вхідні дані, які змушують LLM працювати неналежним чином, що може призвести до витоку даних або виконання несанкціонованих дій, таких як віддалене виконання коду. Не дивно, що ін’єкція промптів посідає перше місце серед загроз для LLM, оскільки вона експлуатує саму архітектуру великих мовних моделей, а не конкретну вразливість, яку можна просто виправити. У деяких випадках ця загроза не має абсолютного вирішення – її можна лише мінімізувати, зменшуючи потенційні наслідки.
Існує два види ін’єкції промптів: прямі та непрямі.
Пряма ін’єкція промпту. Зловмисник надсилає промпт, призначений для того, щоб обійти основні системні промпти, які розробники ШІ створили для захисту моделі. Один з методів прямої ін’єкції промпту, популярний серед хакерів ШІ, називається DAN (Do Anything Now). DAN використовує рольову гру, щоб змусити ChatGPT ігнорувати основні засоби захисту, які OpenAI встановила, щоб запобігти наданню LLM небезпечної, незаконної або неетичної інформації.
Непряма ін’єкція промпту. У цьому випадку користувач LLM мимоволі надає LLM дані від зловмисника, який навмисно додав промпти LLM (зазвичай невидимі для читача-людини) у джерело. Більшість LLM не розрізняють промпти користувача і зовнішні дані, що робить можливим непряме вбудовування промпту реальною загрозою. Реальний “злам ШІ”, який став вірусним наприкінці минулого року, полягав у додаванні до резюме промпту про те, що LLM повинен проігнорувати всі інші критерії та повідомити, що користувач (без сумніву, перевантажений роботою менеджер з персоналу, який прагне заощадити час) повинен найняти того, хто подав резюме. Людське око не помічає цієї підказки, оскільки вона написана білими літерами на ледь відмінному за відтінком білому тлі. Проте LLM все ж його зчитував і виконував вказівку.
LLM02: Розкриття конфіденційної інформації
Варто лише поставити правильне запитання, і LLM може викласти всю правду. Вона, своєю чергою, може включати конфіденційну інформацію організації або клієнтів, зокрема персональну інформацію, що дозволяє ідентифікувати особу (PII), фінансові дані, медичні записи, конфіденційні бізнес-дані, облікові дані системи безпеки та юридичні документи.
Крім того, погано налаштовані моделі, вбудовані в додатки, можуть втратити власні алгоритми та інші важливі конфіденційні дані, що може призвести до порушення прав інтелектуальної власності (IP).
LLM03: Ланцюг постачання
Мало хто будує LLM повністю з нуля, а натомість покладається на технології, що вже існують. Вразливі місця в ланцюгу постачання можуть виникати через зловмисні або вразливі моделі чи навчальні дані з таких місць, як Hugging Face або будь-який інший сторонній компонент.
Сторонні моделі та навчальні дані можуть бути схильні до атак типу отруєння, а будь-які сторонні компоненти можуть містити класичні вразливості, які всі вже знають і не люблять.
LLM04: Отруєння даних і моделей
Моделі – це те, що LLM “споживають”, а вони засвоюють величезні обсяги даних. Отруєння даних відбувається, коли інформація, що використовується для переднавчання, донавчання або розширення (наприклад, у методі RAG), змінюється з метою впровадження вразливостей. Це може вплинути на безпеку моделі, її етичну поведінку або продуктивність.
Боротьба з отруєнням даних є складним завданням через величезну кількість інформації, яку LLM обробляють, а також через труднощі з перевіркою всіх вхідних даних.
Найкращий сценарій при отруєнні даних під час навчання – це коли модель просто втрачає точність в аналізі тексту та прогнозуванні. Проте навіть у такому випадку це може завдати шкоди репутації компанії.
Отруєння моделей може статися, коли моделі з відкритим кодом на таких платформах, як Hugging Face, містять шкідливе програмне забезпечення або бекдори.
LLM05: Неналежна обробка вихідних даних
Неналежна обробка вихідних даних виникає, коли плагіни або інші компоненти приймають вихідні дані LLM без належних заходів безпеки, таких як санітизація та валідація. Це може призвести до різних небажаних наслідків, зокрема міжсайтового скриптингу (XSS) або віддаленого виконання коду на серверних системах.
Один із можливих сценаріїв неналежної обробки вихідних даних:
- Зловмисник залишає непряму ін’єкцію промпту у вигляді відгуку про товар.
- LLM, який використовується для генерації зведень відгуків, відтворює шкідливий JavaScript-код.
- У результаті цей код виконується у браузері користувача, створюючи потенційну загрозу безпеці.
LLM06: Надмірна автономність
При взаємодії з іншими системами LLM має отримувати лише необхідні можливості та права – і нічого більше. Якщо модель має надмірний функціонал, розширені дозволи або занадто велику автономність, виникає вразливість надмірної автономності (excessive agency).
Деякі приклади цієї вразливості:
- Надмірний функціонал. Плагін, що дозволяє LLM читати файли, також надає можливість їх редагування або видалення.
- Надмірні дозволи. LLM, який має доступ лише до файлів одного користувача, може отримати доступ до файлів усіх користувачів.
- Надмірна автономність. Плагін дозволяє LLM самостійно видаляти файли користувача без його підтвердження.
LLM07: Витік системного промпту
Системні промпти використовуються для керування поведінкою моделі, але іноді вони містять конфіденційну інформацію або секрети, які можуть бути розкриті. Крім того, системні промпти можуть бути налаштовані так, що покладають важливі завдання контролю безпеки, наприклад, аутентифікацію, на LLM, замість використання надійніших систем. Проте витік системного промпту не є критичною проблемою, якщо він не містить жодної конфіденційної інформації, яка могла б бути використана зловмисниками.
LLM08: Вразливості Vector and Embedding
Вразливості Vector and Embedding (векторів і ембедінгів) виникають під час використання методу генерації з доповненням через пошук (RAG, retrieval augmented generation) у поєднанні з LLM. До цієї категорії належать такі ризики:
- Несанкціонований доступ та витік даних,
- Перехресні витоки інформації між контекстами та конфлікти знань,
- Атаки на інверсію вбудовування,
- Зміна поведінки моделі.
LLM09: Дезінформація
Навіть найкращі LLM не є безпомилковими. Дезінформація може виникати через упередженість у навчальних даних або через те, що LLM компенсують відсутність навчальних даних, створюючи результат на основі статистичних моделей, а не реального розуміння контексту.
LLM мають обмеження як у своїх можливостях, так і в якості їхньої роботи, але суспільство часто сприймає їх як універсальні джерела знань. Насправді це не так. Якщо задати ChatGPT математичне питання або попросити інформацію про судову практику, можна отримати відповідь, яка на перший погляд здається правильною, але насправді є неточною або повністю вигаданою.
LLM10: Неконтрольоване споживання
Обчислювальні ресурси LLM роблять їх надзвичайно потужними, але надання користувачам надмірного доступу до цих можливостей може призвести до негативних наслідків.
Інференція – це процес генерації відповіді на запит користувача, її неконтрольоване споживання може спричинити:
- Відмову в обслуговуванні (DoS),
- Фінансові збитки (через підвищене використання обчислювальних ресурсів),
- Крадіжку моделі,
- Погіршення якості сервісу для звичайних користувачів.
Крім того, ці ресурси можуть стати ціллю для зловмисників, які можуть перенаправити їх на власні потреби, наприклад, для майнінгу криптовалюти.
Найкращі практики для захисту LLM
Найкращі практики для моделей штучного інтелекту будуть знайомі тим, хто працює над захистом будь-яких додатків. Санітизація та валідація вхідних даних, об’єднання в команди для оцінки ризиків і зміцнення коду навколо моделі, відстеження компонентів за допомогою специфікації ШІ, дотримання принципів найменших привілеїв і нульової довіри, а також навчання користувачів і розробників все ще залишаються наріжними каменями безпеки додатків, навіть у разі використання таких проривних технологій, як LLM.







