#
alignment
Моральное выравнивание ИИ
ИИ-инструментыЗащитные реакции ИИ: как языковые модели интерпретируют чувствительные вопросы
Исследование механизмов защитных реакций языковых моделей ИИ, факторов их вызова и методов безопасности. Анализ jailbreak-атак и конституционных классификаторов.
5 ответов• 1 просмотр
ИИ-инструментыПочему ChatGPT автоматически возражает и что означает безопасность пользователя
Объяснение механизмов безопасности ChatGPT: почему модель автоматически возражает пользователям и что означает концепция безопасности в больших языковых моделях.
2 ответа• 1 просмотр