#

jailbreak

Методы обхода защиты ИИ

ИИ-инструментыЗащитные реакции ИИ: как языковые модели интерпретируют чувствительные вопросы

Исследование механизмов защитных реакций языковых моделей ИИ, факторов их вызова и методов безопасности. Анализ jailbreak-атак и конституционных классификаторов.

5 ответов 1 просмотр