PaperBench — новый виток в оценке ИИ-агентов
Если вы думали, что создание ИИ-агентов — это лишь достижение в области фантастики, откройте для себя PaperBench, новый бенчмарк от OpenAI! Этот проект имеет цель не просто оценить способности искусственного интеллекта, но и вынудить его пройти через сложный лабиринт академических исследований, воспроизводя целых 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Как все устроено?
На первый взгляд, задание может показаться простым: воспроизвести статьи. Но в этом волшебном мире ИИ все далеко не так просто. Каждая статья рассматривается через призму детально разработанных рубрик. Эти рубрики разбивают задачу на мелкие кусочки, создавая четкие критерии для оценки. Всего в PaperBench насчитывается 8 316 индивидуально оцениваемых задач – это целая гора работы для нашего интеллектуального друга!
Для оценки результатов мумии, извините, ИИ-агентов, создан судья на базе мощной языковой модели (LLM). Он автоматически проверяет, насколько удачными были попытки воспроизведения, сопоставляя их с установленными рубриками. Интересно, что эффективность судьи проверяется с помощью отдельного бенчмарка. Это похоже на виртуальное соревнование, где побеждает не кто-то из участников, а сам процесс!
Первые результаты
Теперь к самому интересному – результатам. После тестирования нескольких передовых моделей стало ясно, что Claude 3.5 Sonnet (New), использующий открытый исходный код, стал лучшим из протестированных агентов. Он достиг впечатляющего среднего показателя воспроизведения в 21,0%. Но не спешите пугаться! Это все еще не преодолевает уровень мастерства, установленный величественной группой ведущих докторантов в области машинного обучения. На этот раз простая машинка не одержала победу над мудростью человеческого разума.
Открытый доступ к коду
Посколькуijden новейшие технологии становятся доступнее с каждым днем, не забывайте, что код проекта доступен в открытом доступе. Это означает, что любительский программист может заглянуть под капот этого интеллектуального двигателя и, возможно, внести свои изменения.
В общем, PaperBench не просто бенчмарк, это энциклопедия современных вызовов для ИИ, которая ставит его в равные условия с исследовательским сообществом. Пожалуй, это тот самый момент, когда искусственный интеллект может попытаться соперничать с лучшими умами. Посмотрим, какое будущее нас ждет впереди!
#openai #Benchmark

PaperBench: Новая эра бенчмарков для ИИ-агентов ver 0
Ширина: 1280 px
Высота: 600 px
Соотношение сторон.: 32:15
Скачать
Вам также может понравиться






















