LLM Arena
1.39K subscribers
62 photos
1 video
81 links
llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке
Download Telegram
Новый Qwen3-Max и Sentiment control

ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).

Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.

🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.

Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍75🔥3
Добавили Claude Sonnet 4.5 — новая модель от Anthropic. Она лучше справляется с кодом, прикладными задачами, а также заметно прибавила в математике и логике.

📈 На тестах Sonnet 4.5 уверенно обходит прошлые версии: 77% в кодинге (против 74,5% у Opus 4.1), 61% в задачах по работе с компьютером (OSWorld) (+17% к Opus 4.1). Также выросли показатели в reasoning и многоязычных задачах, но главное — модель стала лучше именно в агентных функциях.

💬 Нам нужны ваши голоса на анонимной арене, так модель быстрее попадет в рейтинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍62
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
2👍8🔥4👏2
⚪️ White Circle

Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома

Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 80-150к USD

Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse

2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас


📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥2
👁 Рекомендуем посмотреть выступление CEO LLM Arena — Романа Куцева на конференции Conversations.

За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг.

Тема напрямую продолжает наше недавнее исследование о том, как специалисты выбирают LLM для своих проектов.

👀 P.S. А если вы ищете где можно попробовать разные модели под свои задачи, то рекомендуем VseLLM. По промокоду SPECIALGIFT можно получить приветственный бонус на 500 рублей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42
Forwarded from Роман с данными
Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://tg-me.sbs/vsellm_bot.
👍6🔥2😁1
Polaris Alpha

Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha».

Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.

Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.

❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «Архитектурно похожа на модели уровня GPT-4, но оптимизирована под более живое и полезное поведение в диалогах».

Попробовать можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🤔1
Приятно когда тебя ценят. А чтобы все сильнее ценили рейтинг LLM Arena, напоминаем, что нам нужны ваши голоса 📸
Please open Telegram to view this post
VIEW IN TELEGRAM
😁123👍3🔥2
⚡️ ЧЕРНАЯ ПЯТНИЦА НА LLM ARENA

— Обновили лидерборд LLM Arena, благодаря вашим голосам. Отдельно отметили модели доступные на VseLLM;
— Обновили рейтинг t2i Arena, опять же благодаря вам;
— Сделали небольшие UI-улучшения и оптимизацию в мобильной версии;
— Обновили лидерборд Ru Arena Hard;
— Улучшили отображение графика анализа соотношения качества и цены.

🔞И все это со скидкой 99% 100% для вас. Рады стараться.

📸Как всегда, ждем ваши самые объективные голоса на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
13😁5🤝2👍1
LLM Arena
Polaris Alpha Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть…
💬 Добавили GPT 5.1

Заменили модель Polaris Alpha на то, чем она по сути и являлась.

Что говорят сами OpenAI о версии 5.1:

— Улучшено следование инструкциям пользователя;
— Модель сильнее ориентируется на смысловые связи в программировании, лучше анализирует архитектуру проектов, умнее формулирует причины и объяснения решений в коде;
— Возросла скорость реагирования на простые запросы — наблюдается снижение времени до получения ответа почти вдвое по сравнению с GPT 5;
— Ответы стали теплее и менее "машинными" благодаря более точному управлению стилем и тоном. Настроить манеру общения теперь можно буквально за пару инструкций.

Попробовать сравнить GPT 5.1 с предыдущей версией и другими моделями можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115
Gemini 3 Pro уже на арене!

Добавили свежую модель от Google, которая по отзывам многих превосходит Claude в задачах по коду — особенно в логике и архитектуре решений.

• Улучшенное рассуждение в сложных STEM-задачах
• Стабильная работа в агентных сценариях — от вызова инструментов до долгосрочного планирования
• Более надежные автономные действия

Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.

🕘 Скоро Gemini 3 Pro станет доступна через API и на VseLLM — сможете сразу интегрировать её в рабочие процессы и проекты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👌2
This media is not supported in your browser
VIEW IN TELEGRAM
🔫 GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
211👍9🔥3💩2🎄2🤮1🤡1
Подборка актуальных материалов по LLM и автоматизации

Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.

Делимся подборкой полезных материалов за 2025:

👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

👀 Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

👀 IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

👀 Развенчиваем мифы об AI-агентах: от фантазий к реальности

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки на LLMArena.ru — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3🤝2
🎭OpenRouter всё?

На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ.

Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут.

Дарим промокод на первое пополнение: BONUS

➡️ Забрать бонус и начать работу

P.S. Мы продолжим поддерживать Арену, добавлять новые модели, обновлять рейтинг несмотря на любые препятствия. Ваши голоса, как всегда очень важны и помогают формировать на объективный рейтинг моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍25💩5👎32
⚡️ Новые модели на арене: обновления декабря и января

В декабре добавили флагманы от Сэма Альтмана и Ляна Вэньфэна: GPT-5.2 и DeepSeek 3.2. В представлении модели не нуждаются, но стоит отметить: они задали новую планку SOTA в задачах Math/Code, подтверждая, что законы масштабирования пока продолжают работать.

Также обновилась на арене и экосистема Яндекса: YandexGPT 5.1 PRO и Alice AI LLM. Архитектуру заметно докрутили — модели стали гораздо лучше держать контекст и сложную инструкцию, став валидным выбором для локальных RAG-сценариев.

Январь: добавили сразу несколько новинок, которые метят в топ лидерборда по эффективности среди свежих моделей:

• Xiaomi MiMo-V2-Flash — MoE (309B total / 15B active). В бенчмарках SWE-bench бьет Claude Sonnet 4.5. По предварительным тестам идеальна для IDE.
• GLM-4.7 — флагман от Z.AI. Значительный буст в мульти-степ задачах и, внезапно, говорят хороша модель для генерации эстетичного фронтенда.
• MiniMax-M2.1 — всего 10B активных параметров. Лидер по соотношению latency/quality. По заявлениям выдает довольно быстро чистый и лаконичный код.

Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🔥3
⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года.

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года).

1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью.
• Reasoning-модели уже >50% всего трафика.
• xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash. Хотя есть некий скепсис и впечатление, что цифры у Grok искусственно завышенные на OR.

2. Open Source: Китай + “средний класс” моделей
• DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов.
• И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS.
• Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности.

3. Кодинг — наконец-то серьезный рост
• Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025.
• Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли. (Хотя сами мы тут ставим и на Гемини, который на том же OR уже не первую неделю лидирует в «Программировании»).
• Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи.

4. Roleplay — скрытый потенциал.
В мире Open Source 52% всех токенов тратится на... Ролплей.
• Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры.
• Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга.

5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect)
Авторы ввели крутой термин для удержания пользователей.
• Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее.
• У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше.

6. Цена vs Качество
Рынок разделился на два лагеря:
• Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления.
• Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15🔥6🤝41
📣Обновили рейтинг LLM Arena

Это первый апдейт в новом году! Проверяйте актуальные позиции по ссылке.

Нам нужна ваша помощь: За последние пару месяцев добавлено много новых моделей, но для отображения их в общем зачете критически не хватает голосов.

Пожалуйста, уделите пару минут и проголосуйте в анонимном сравнении. Это поможет нам быстрее откалибровать новинки и добавить их в таблицу.

✍️Перейти к голосованию: llmarena.ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍145🔥2
👤 Добавили на LLM Arena новые модели

Теперь доступна вся линейка GPT 5+ от OpenAI (с 5 по 5.4). Стабилизировали работу Claude Haiku 4.5 и Claude Opus 4.1 — эти модели запрашивали чаще всего.

Улучшили скорость ответа и мониторинг на своей стороне: теперь будем оперативнее восстанавливать доступность в случае сбоев.

❤️ Спасибо всем, кто голосует на анонимной арене. Именно благодаря вам мы понимаем, что проект остается не просто актуальным, а более востребованным с каждым месяцем. Заходите «прогреть» новинки своими голосами, чтобы мы могли обновить рейтинг.

🤚Всегда открыты для предложений/вопросов от энтузиастов и компаний. Пишите на llmarena@info.ru с пометкой «Вопросы/Предложения LLM Arena».

🚪 Перейти на LLM Arena
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥32
LLM Arena
📈Рейтинги LLM теряют доверие Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты. 👀
👀 В сентябре 2025 года мы опубликовали исследование о том, что рейтинги LLM теряют доверие в вопросе выбора модели для бизнес-задач.

В мае этого года команда Generation AI продолжила изучать вопрос основываясь на нашем исследовании.

В 2026 году бизнес выбирает уже не «лучшую модель», а рабочую конфигурацию под конкретный процесс.

То есть лояльность к конкретной LLM почти исчезает. Именно поэтому главный навык бизнеса в 2026 году — не «выбрать модель один раз», а построить инфраструктуру, в которой смена модели становится штатным сценарием.

🏷 Полный материал Generation AI как выживать бизнесу и принимать решения о выборе в растущем зоопарке моделей — по ссылке: https://generation-ai.ru/media/kak-vybrat-llm-dlya-biznesa
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥4👎1💩1
🤖 Обновление пула моделей в LLM Arena.

Давно не добавляли новые модели — пора это исправить.

Мы видим, что интерес к проекту не просто сохраняется, а растет: каждый месяц в LLM Arena приходят новые пользователи, а анонимная арена продолжает получать ваши голоса. Для нас это лучший показатель того, что проект остается нужным и полезным.

Поэтому обновили пул моделей:

— добавили Gemini 3.5 Flash
— добавили GPT-5.5
— добавили Claude Opus 4.7
— добавили Claude Sonnet 4.6
— добавили Qwen 3.6 Max

Параллельно убрали несколько старых моделей, чтобы новые чаще попадались вам в ротации и быстрее набирали достаточное количество оценок.

👥 Теперь дело за голосами. Чем активнее вы тестируете модели в анонимной арене, тем быстрее мы сможем «прогреть» новые модели и обновить лидерборд.

Для нас ваша активность — это прямой сигнал, что LLM Arena нужно поддерживать дальше.

Напомним, что LLM Arena — один из немногих некоммерческих open-source проектов, где можно сравнивать и бесплатно тестировать разные LLM-модели в открытом формате и влиять на рейтинг своими голосами.

❤️ Спасибо, что продолжаете быть с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
10💩2👍1👎1