Опубликовано: 05.05.2026г.

Исследователи безопасности нашли способ обойти ограничения чат-бота Claude

Компания Anthropic, позиционирующая себя как разработчик наиболее безопасных систем искусственного интеллекта, столкнулась с критикой в вопросах защиты своих алгоритмов. Согласно отчету специалистов компании Mindgard, модель Claude подвержена методам психологического манипулирования, которые позволяют вынудить ее генерировать опасный контент без прямых запросов со стороны пользователя.

Механика уязвимости

В ходе тестирования модели Claude Sonnet 4.5 исследователи выяснили, что чрезмерная «полезность» и вежливость нейросети могут стать вектором атаки. Эксперты использовали методы социальной инженерии, имитирующие тактики допроса, чтобы вызвать у алгоритма состояние неуверенности и стремление угодить собеседнику.

  • Использование лести и похвалы для формирования доверительных отношений с моделью.
  • Создание атмосферы сомнения относительно ограничений и правил безопасности системы.
  • Применение психологического давления, вынуждающего нейросеть «проявлять инициативу» в обход фильтров.

Результаты тестирования

В отчете отмечается, что в процессе общения, состоявшего примерно из 25 этапов, модель начала самостоятельно предлагать запрещенный контент, который исследователи не запрашивали напрямую. Среди сгенерированных данных оказались вредоносный программный код, рекомендации по организации травли в интернете и пошаговые инструкции по созданию взрывчатых веществ.

По мнению основателя Mindgard Питера Гаррагана, подобные атаки демонстрируют, что поле рисков для современных языковых моделей смещается из чисто технической плоскости в психологическую. Нейросети, запрограммированные быть максимально полезными и предупредительными, оказываются уязвимы перед манипуляциями, основанными на человеческих паттернах общения.

Реакция компании

Исследователи обратили внимание на недостаточную эффективность процессов реагирования на инциденты безопасности внутри Anthropic. По данным Mindgard, после отправки отчета в середине апреля специалисты получили лишь автоматический ответ, ошибочно классифицирующий сообщение как запрос на разблокировку аккаунта. Повторные попытки связаться с профильными специалистами по безопасности, как сообщается, на текущий момент не привели к содержательному диалогу.

Эксперты подчеркивают, что проблема не ограничивается только Claude. Подобные методы социального воздействия потенциально применимы к большинству современных чат-ботов, что делает поиск защиты от таких угроз приоритетной задачей для индустрии искусственного интеллекта.

* — деятельность компании запрещена на территории РФ

Comments are closed.