#
jailbreak
Методы обхода защиты ИИ
ИИ-инструментыЗащитные реакции ИИ: как языковые модели интерпретируют чувствительные вопросы
Исследование механизмов защитных реакций языковых моделей ИИ, факторов их вызова и методов безопасности. Анализ jailbreak-атак и конституционных классификаторов.
5 ответов• 1 просмотр