jailbreak

Методы обхода защиты ИИ

ИИ-инструменты Защитные реакции ИИ: как языковые модели интерпретируют чувствительные вопросы

Исследование механизмов защитных реакций языковых моделей ИИ, факторов их вызова и методов безопасности. Анализ jailbreak-атак и конституционных классификаторов.

#ai-safety
#language-models
#jailbreak
#alignment
#constitutional-classifiers

5 ответов• 1 просмотр

07.04.2026, 15:24