Атаки и уязвимости ИИ

Что такое безопасность ИИ?

Безопасность ИИ – точка пересечения традиционной кибербезопасности и хаотической гениальности машинного обучения. Это дисциплина, сосредоточенная на защите систем искусственного интеллекта. Это касается не только кода, но и обучающих данных, логики модели и ее исходных результатов – от манипуляций, краж и злоупотреблений. Поскольку эти системы учатся на данных, а не только на логике, они открывают новые поверхности атак, такие как отравление данных, инверсия модели и инъекция промптов. Защита ИИ означает гарантию безопасности всего – от наборов данных, формирующих модель, до решений, принимаемых в производительной среде.

Основные атаки и уязвимости ИИ

Отравление данных

Отравление данных предполагает введение вредоносных или намеренно обманчивых данных в обучающий набор данных модели для манипулирования ее результатами. Эти манипуляции могут проявляться по-разному: вызывать неправильные прогнозы, встраивать бэкдоры, которые активируются только при определенных условиях, или искажать поведение модели, чтобы усилить нежелательные предубеждения. Атаки отравления могут быть скрытыми (например, небольшая часть неправильно маркированных примеров) или явными, включающими большие объемы манипуляций с данными.

Например, в систему распознавания лиц злоумышленник может ввести испорченные учебные образцы, заставляющие модель постоянно неправильно идентифицировать лиц из определенной демографической группы, что приводит к реальному ущербу и усугубляет системные предубеждения. В контексте кибербезопасности отравление модели обнаружения угроз может позволить вредоносному программному обеспечению оставаться невыявленным, тонко изменяя признаки в журналах обучения.

Инверсия модели

При атаке инверсии модели злоумышленник взаимодействует с обученной моделью машинного обучения (обычно через API, работающую как «черный ящик»). Он посылает большое количество специально сформированных входных данных и анализирует соответствующие исходные результаты. Со временем, используя статистические методы, или методы машинного обучения, злоумышленник может сделать выводы о начальных учебных данных, а иногда даже воспроизвести изображения, тексты или записи, очень похожие на реальные примеры из датасета.

Этот тип атак создает серьезные риски для конфиденциальности, особенно в областях, работающих с чувствительной персональной информацией. К примеру, в сфере здравоохранения злоумышленник может восстановить части медицинской карточки пациента с модели, обученной на диагностике заболеваний. В финансовой сфере модель, прогнозирующая кредитный риск, может ненамеренно раскрыть характеристики отдельных заявителей на кредит.

Атаки инверсии модели более вероятны, когда модели слишком уверены в своих прогнозах или не имеют надлежащих механизмов дифференцированной конфиденциальности.

Стратегии смягчения последствий включают:

добавление шума к исходным данным,
ограничение доступа к внутренним данным модели,
использование методов обучения, сохраняющих конфиденциальность.

Например, такой метод, как федеративное обучение, повышающее конфиденциальность путем децентрализации конфиденциальной информации. Также существует метод гомоморфного шифрования, позволяющий проводить вычисления на зашифрованных данных и позволяющий моделям делать прогнозы или выполнять аналитику без расшифровки входных данных, сохраняя конфиденциальность даже при обработке данных.

Инъекция промпта

Инъекция промпта нацелена на большие языковые модели (LLMs) путем встраивания вредоносных инструкций в пользовательские запросы или окружающий контекст. Такие атаки используют неспособность модели различать надежные и ненадежные входные данные. Это может привести к игнорированию системных инструкций, раскрытию конфиденциальной информации или непредсказуемому поведению. Инъекция может быть прямой (когда вредоносное содержимое вставляется непосредственно в запрос пользователя) или косвенной (когда вредоносный текст встраивается в документы, вебстраницы или журналы, которые впоследствии обрабатываются системой на базе LLM).

Эта уязвимость становится особенно опасной, когда LLM используются в автономных агентах, чат-ботах службы поддержки или инструментах автоматизации рабочих процессов, где они имеют доступ к конфиденциальным данным или способны выполнять действия. Например, инъекция промпта может заставить виртуального помощника выполнить несанкционированные команды или раскрыть внутренние конфиденциальные заметки.

Стратегии смягчения рисков включают внедрение жесткой проверки входных данных и контекстной фильтрации, строгое разделение пользовательского контента и системных запросов, а также использование методов укрепления запросов. Эти методы включают усиление системных сообщений или фильтрацию исходных данных для уменьшения возможности эксплуатации.

Adversarial attacks

Adversarial attacks тесно связаны с уязвимостями в том, как модели интерпретируют и кодируют данные. Незаметные манипуляции (подобные рассматриваемым в анализе Mend относительно уязвимостей vector and embedding) могут существенно изменить поведение модели, оставаясь при этом незамеченными для человека. Такие атаки предполагают создание входных данных с тонкими изменениями, которые часто незаметны для человека, но заставляют модель принимать неправильные или даже опасные решения. Эти манипуляции, известные как adversarial examples, эксплуатируют чувствительность модели к определенным характеристикам входных данных и недостаточную ее способность к обобщению.

Например, в системах распознавания изображений дорожный знак «стоп» с намеренно размещенными наклейками или шумом может быть неправильно классифицирован системой компьютерного зрения автономного автомобиля как знак ограничения скорости или знак «уступи дорогу». Это может привести к опасному поведению на дороге.

Adversarial attacks не ограничиваются только системами компьютерного видения. В области обработки природного языка даже незначительные изменения в предложении (как перестановка слов или замена синонимов) могут оказать существенное влияние на результаты классификации модели. В приложениях для кибербезопасности adversarial examples могут использоваться для обхода детекторов вредоносного ПО или систем обнаружения вторжений.

Эти атаки подчеркивают хрупкость многих моделей машинного обучения и отмечают необходимость использования надежного обучения, предварительной обработки входных данных, техник обучения adversarial и постоянного тестирования против новых векторов атак.

Кража модели

Кража модели (также известная как экстракция модели) происходит тогда, когда злоумышленник воспроизводит частную модель, систематически посылая ей запросы и анализируя ответы. Такая тактика, особенно опасная в средах AI-as-a-service, может привести к воровству интеллектуальной собственности и потере конкурентного преимущества.

Вывод

Искусственный интеллект создает уникальные угрозы безопасности, которые традиционная кибербезопасность не способна полностью нейтрализовать. Защита систем ИИ требует комплексного подхода, охватывающего безопасность обучающих данных, поведения модели и ее результатов. Используя такие методы, как обучение с соблюдением конфиденциальности, проверка входных данных и тестирование на adversarial examples, организации могут уменьшить поверхность уязвимостей и обеспечить безопасное внедрение технологий ИИ.