LiveBench
Бенчмарковая платформа
Платформа для оценки языковых моделей с акцентом на отсутствие загрязнения данных
ИИ-инструментыLiveBench с Codex 5.3: выводы о производительности и регрессии
Анализ последнего запуска LiveBench с Codex 5.3: производительность в агентном программировании, проблемы регрессии и ключевые выводы.
5 ответов• 1 просмотр