Атаки та вразливості ШІ

Що таке безпека ШІ?

Безпека ШІ – це точка перетину традиційної кібербезпеки та хаотичної геніальності машинного навчання. Це дисципліна, що зосереджена на захисті систем штучного інтелекту. Це стосується не лише коду, а й навчальних даних, логіки моделі та її вихідних результатів – від маніпуляцій, крадіжок і зловживань. Оскільки ці системи навчаються на даних, а не лише на логіці, вони відкривають нові поверхні для атак, такі як отруєння даних, інверсія моделі та ін’єкція промптів. Захист ШІ означає гарантію безпеки всього – від наборів даних, що формують модель, до рішень, які вона приймає у продуктивному середовищі.

Основні атаки та вразливості ШІ

Отруєння даних

Отруєння даних передбачає введення шкідливих або навмисно оманливих даних у навчальний набір даних моделі для маніпулювання її результатами. Ці маніпуляції можуть проявлятися по-різному: спричиняти неправильні прогнози, вбудовувати бекдори, які активуються лише за певних умов, або спотворювати поведінку моделі, щоб посилити небажані упередження. Атаки отруєння можуть бути прихованими (наприклад, невелика частина неправильно маркованих прикладів), або явними, що включають великі обсяги маніпуляцій з даними.

Наприклад, у систему розпізнавання облич зловмисник може ввести зіпсовані навчальні зразки, які змушують модель постійно неправильно ідентифікувати осіб з певної демографічної групи, що призводить до реальної шкоди й посилює системні упередження. У контексті кібербезпеки отруєння моделі виявлення загроз може дозволити шкідливому програмному забезпеченню залишатися невиявленим, тонко змінюючи ознаки в журналах навчання.

Інверсія моделі

Під час атак інверсії моделі зловмисник взаємодіє з навченою моделлю машинного навчання (зазвичай через API, що працює як «чорна скринька»). Він надсилає велику кількість спеціально сформованих вхідних даних і аналізує відповідні вихідні результати. З часом, використовуючи статистичні методи, або методи машинного навчання, зловмисник може зробити висновки про початкові навчальні дані, а іноді навіть відтворити зображення, тексти або записи, які дуже схожі на реальні приклади з датасету.

Цей тип атаки створює серйозні ризики для конфіденційності, особливо в галузях, що працюють із чутливою персональною інформацією. Наприклад, у сфері охорони здоров’я зловмисник може відновити частини медичної картки пацієнта з моделі, навченої на діагностиці захворювань. У фінансовій сфері модель, що прогнозує кредитний ризик, може ненавмисно розкрити характеристики окремих заявників на кредит.

Атаки інверсії моделі більш вірогідні, коли моделі надто впевнені у своїх прогнозах або не мають належних механізмів диференційованої конфіденційності.

Стратегії пом’якшення наслідків включають:

  • додавання шуму до вихідних даних,
  • обмеження доступу до внутрішніх даних моделі,
  • використання методів навчання, що зберігають конфіденційність.

Наприклад, такий метод, як федеративне навчання, яке підвищує конфіденційність шляхом децентралізації конфіденційної інформації. Також існує метод гомоморфного шифрування, яке дозволяє проводити обчислення на зашифрованих даних і дозволяє моделям робити прогнози або виконувати аналітику без розшифровки вхідних даних, зберігаючи конфіденційність навіть під час обробки даних.

Ін’єкція промпту

Ін’єкція промпту націлена на великі мовні моделі (LLMs) шляхом вбудовування шкідливих інструкцій у користувацькі запити або навколишній контекст. Такі атаки використовують нездатність моделі розрізняти надійні та ненадійні вхідні дані. Це може призвести до ігнорування системних інструкцій, розкриття конфіденційної інформації або непередбачуваної поведінки. Ін’єкція може бути прямою (коли шкідливий вміст вставляється безпосередньо у запит користувача), або непрямою (коли шкідливий текст вбудовується в документи, вебсторінки чи журнали, які згодом обробляються системою на базі LLM).

Ця вразливість стає особливо небезпечною, коли LLM використовуються в автономних агентах, чат-ботах служби підтримки або інструментах автоматизації робочих процесів, де вони мають доступ до конфіденційних даних або здатні виконувати дії. Наприклад, ін’єкція промпту може змусити віртуального помічника виконати несанкціоновані команди або розкрити внутрішні конфіденційні нотатки.

Стратегії пом’якшення ризиків включають впровадження жорсткої перевірки вхідних даних і контекстної фільтрації, суворе розділення користувацького контенту та системних запитів, а також використання методів зміцнення запитів. Ці методи включають підсилення системних повідомлень або фільтрація вихідних даних для зменшення можливості експлуатації.

Adversarial attacks

Adversarial attacks тісно пов’язані з вразливостями в тому, як моделі інтерпретують і кодують дані. Непомітні маніпуляції (подібні до тих, що розглядаються в аналізі Mend щодо вразливостей vector and embedding) можуть суттєво змінити поведінку моделі, залишаючись при цьому непоміченими для людини. Такі атаки передбачають створення вхідних даних із тонкими змінами, які часто є непомітними для людини, але змушують модель приймати неправильні або навіть небезпечні рішення. Ці маніпуляції, відомі як adversarial examples, експлуатують чутливість моделі до певних характеристик вхідних даних і її недостатню здатність до узагальнення.

Наприклад, у системах розпізнавання зображень дорожній знак «стоп» із навмисно розміщеними наліпками або шумом може бути неправильно класифікований системою комп’ютерного зору автономного автомобіля як знак обмеження швидкості або знак «уступи дорогу». Це потенційно може призвести до небезпечної поведінки на дорозі.

Adversarial attacks не обмежуються лише системами комп’ютерного бачення. У сфері обробки природної мови навіть незначні зміни в реченні (як перестановка слів або заміна синонімів) можуть суттєво вплинути на результати класифікації моделі. У застосуваннях для кібербезпеки adversarial examples можуть використовуватись для обходу детекторів шкідливого ПЗ або систем виявлення вторгнень.

Ці атаки підкреслюють крихкість багатьох моделей машинного навчання та наголошують на необхідності використання надійного навчання, попередньої обробки вхідних даних, технік навчання adversarial та постійного тестування проти нових векторів атак.

Крадіжка моделі

Крадіжка моделі (також відома як екстракція моделі) відбувається тоді, коли зловмисник відтворює приватну модель, систематично надсилаючи їй запити та аналізуючи відповіді. Така тактика, особливо небезпечна в середовищах AI-as-a-service, може призвести до крадіжки інтелектуальної власності та втрати конкурентної переваги.

Висновок

Штучний інтелект створює унікальні загрози безпеці, які традиційна кібербезпека не здатна повністю нейтралізувати. Захист систем ШІ вимагає комплексного підходу, що охоплює безпеку навчальних даних, поведінки моделі та її результатів. Використовуючи такі методи, як навчання з дотриманням конфіденційності, перевірка вхідних даних і тестування на adversarial examples, організації можуть зменшити поверхню вразливостей та гарантувати безпечне впровадження технологій ШІ.

Підписатися на новини