PaperBench: Новый взгляд на оценку ИИ-агентов от OpenAI

PaperBench — новый виток в оценке ИИ-агентов

Если вы думали, что создание ИИ-агентов — это лишь достижение в области фантастики, откройте для себя PaperBench, новый бенчмарк от OpenAI! Этот проект имеет цель не просто оценить способности искусственного интеллекта, но и вынудить его пройти через сложный лабиринт академических исследований, воспроизводя целых 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.

Как все устроено?

На первый взгляд, задание может показаться простым: воспроизвести статьи. Но в этом волшебном мире ИИ все далеко не так просто. Каждая статья рассматривается через призму детально разработанных рубрик. Эти рубрики разбивают задачу на мелкие кусочки, создавая четкие критерии для оценки. Всего в PaperBench насчитывается 8 316 индивидуально оцениваемых задач – это целая гора работы для нашего интеллектуального друга!

Для оценки результатов мумии, извините, ИИ-агентов, создан судья на базе мощной языковой модели (LLM). Он автоматически проверяет, насколько удачными были попытки воспроизведения, сопоставляя их с установленными рубриками. Интересно, что эффективность судьи проверяется с помощью отдельного бенчмарка. Это похоже на виртуальное соревнование, где побеждает не кто-то из участников, а сам процесс!

Первые результаты

Теперь к самому интересному – результатам. После тестирования нескольких передовых моделей стало ясно, что Claude 3.5 Sonnet (New), использующий открытый исходный код, стал лучшим из протестированных агентов. Он достиг впечатляющего среднего показателя воспроизведения в 21,0%. Но не спешите пугаться! Это все еще не преодолевает уровень мастерства, установленный величественной группой ведущих докторантов в области машинного обучения. На этот раз простая машинка не одержала победу над мудростью человеческого разума.

Открытый доступ к коду

Посколькуijden новейшие технологии становятся доступнее с каждым днем, не забывайте, что код проекта доступен в открытом доступе. Это означает, что любительский программист может заглянуть под капот этого интеллектуального двигателя и, возможно, внести свои изменения.

В общем, PaperBench не просто бенчмарк, это энциклопедия современных вызовов для ИИ, которая ставит его в равные условия с исследовательским сообществом. Пожалуй, это тот самый момент, когда искусственный интеллект может попытаться соперничать с лучшими умами. Посмотрим, какое будущее нас ждет впереди!

🟡 Github
🟡 Paper

#openai #Benchmark