Hi, AI • Новости технологий

🔄

«Последний экзамен человечества» — самый сложный тест для ИИ

Для оценки способностей ИИ-моделей им дают специальные тесты — бенчмарки. Они проверяют нейросети в разных областях — от математики до переводов.

С помощью самых сложных бенчмарков специалисты отслеживают, как близки существующие модели к сильному ИИ и оценивают их безопасность.

Исследователи Центра безопасности ИИ и компании Scale AI создали «Последний экзамен человечества» — самый сложный тест, которому когда-либо подвергали искусственный интеллект.

Тест из 3 тыс. вопросов находится в открытом доступе. Его составляли около тысячи ученых (большинство — доктора наук) из 50 стран и разных областей — от аналитической философии до высшей математики и ракетостроения. Авторы 50 лучших вопросов получили по $5 тыс.

❓ Пример вопроса:

У колибри, относящихся к отряду Apodiformes, есть уникальная двусторонняя парная овальная кость (сесамовидная кость), встроенная в каудолатеральную часть расширенного крестообразного апоневроза вставки m. depressor caudae. Сколько парных сухожилий поддерживается этой сесамовидной костью? Ответьте числом.

Экзамен решали шесть ведущих ИИ-моделей: Gemini 2.0 от Google, Claude 3.5 Sonnet от Anthropic, Grok-2 от xAI, GPT-4o и o1 от OpenAI и новая рассуждающая модель DeepSeek-R1 от китайского стартапа. Никто не набрал больше 10%

⤴️

Самые высокие баллы получили OpenAI-o1 (9,1%) и DeepSeek-R1 (9,4%), но китайская модель не решала часть задач, так как не умеет работать с картинками.

Создатели теста убеждены, что показатели будут быстро расти и к концу 2025 года могут превысить 50%. Возможно, тогда понадобится новый бенчмарк, где ИИ будут задавать вопросы, на которые у людей нет ответов.

Но даже такой мощный ИИ вряд ли станет угрозой ученым-людям, считает один из авторов теста, физик из Беркли Кевин Чжоу. «Есть огромная разница между тем, чтобы сдать тест и быть практикующим физиком или исследователем. Даже ИИ, способный ответить на эти вопросы, может быть не готов помочь в исследованиях, которые менее структурированы», — объясняет он.

Еще по теме:

🟠 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT

🟠 Инженеры Google хотят сделать нейросети эффективнее, научив их удивляться и забывать

👋

Подпишитесь на Hi, AI!

#бенчмарк #AGI #новости

Please open Telegram to view this post