#

alignment

Моральное выравнивание ИИ

ИИ-инструментыЗащитные реакции ИИ: как языковые модели интерпретируют чувствительные вопросы

Исследование механизмов защитных реакций языковых моделей ИИ, факторов их вызова и методов безопасности. Анализ jailbreak-атак и конституционных классификаторов.

5 ответов 1 просмотр
ИИ-инструментыПочему ChatGPT автоматически возражает и что означает безопасность пользователя

Объяснение механизмов безопасности ChatGPT: почему модель автоматически возражает пользователям и что означает концепция безопасности в больших языковых моделях.

2 ответа 1 просмотр