Новый Qwen3-Max и Sentiment control
ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7❤5🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍6❤2
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
SPECIALGIFT на баланс первым пользователям.Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
vsellm.ru
VseLLM — единый API-доступ к лучшим LLM
VseLLM — российская платформа для доступа к языковым моделям через единый API.
2👍8🔥4👏2
Forwarded from Love. Death. Transformers.
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-🍴 80-150к USD
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥2
За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Роман с данными
Ура, наконец получил видео с выступления на Conversations!
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations…
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations…
👍10🔥4❤2
Forwarded from Роман с данными
Поделюсь обновлениями проекта VseLLM!
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://tg-me.sbs/vsellm_bot.
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://tg-me.sbs/vsellm_bot.
👍6🔥2😁1
Polaris Alpha
✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha».
Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.
Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.
❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «Архитектурно похожа на модели уровня GPT-4, но оптимизирована под более живое и полезное поведение в диалогах».
Попробовать можете уже на Арене: https://llmarena.ru/
📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.
Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.
Попробовать можете уже на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🤔1
Приятно когда тебя ценят. А чтобы все сильнее ценили рейтинг LLM Arena, напоминаем, что нам нужны ваши голоса 📸
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
[30/100] Витя Тарнавский
@llm_arena не реви, ты тоже нужна ❤️
😁12❤3👍3🔥2
— Обновили лидерборд LLM Arena, благодаря вашим голосам. Отдельно отметили модели доступные на VseLLM;
— Обновили рейтинг t2i Arena, опять же благодаря вам;
— Сделали небольшие UI-улучшения и оптимизацию в мобильной версии;
— Обновили лидерборд Ru Arena Hard;
— Улучшили отображение графика анализа соотношения качества и цены.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13😁5🤝2👍1
LLM Arena
Polaris Alpha ✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть…
Заменили модель Polaris Alpha на то, чем она по сути и являлась.
Что говорят сами OpenAI о версии 5.1:
— Улучшено следование инструкциям пользователя;
— Модель сильнее ориентируется на смысловые связи в программировании, лучше анализирует архитектуру проектов, умнее формулирует причины и объяснения решений в коде;
— Возросла скорость реагирования на простые запросы — наблюдается снижение времени до получения ответа почти вдвое по сравнению с GPT 5;
— Ответы стали теплее и менее "машинными" благодаря более точному управлению стилем и тоном. Настроить манеру общения теперь можно буквально за пару инструкций.
Попробовать сравнить GPT 5.1 с предыдущей версией и другими моделями можете уже на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5
Добавили свежую модель от Google, которая по отзывам многих превосходит Claude в задачах по коду — особенно в логике и архитектуре решений.
• Улучшенное рассуждение в сложных STEM-задачах
• Стабильная работа в агентных сценариях — от вызова инструментов до долгосрочного планирования
• Более надежные автономные действия
Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👌2
This media is not supported in your browser
VIEW IN TELEGRAM
LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.
GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.
Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.
Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤11👍9🔥3💩2🎄2🤮1🤡1
Подборка актуальных материалов по LLM и автоматизации
Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.
Делимся подборкой полезных материалов за 2025:
👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно
👀 Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса
👀 IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
👀 Развенчиваем мифы об AI-агентах: от фантазий к реальности
📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки на LLMArena.ru — они помогают нам строить рейтинг объективнее.
Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.
Делимся подборкой полезных материалов за 2025:
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход...
👍10🔥3🤝2
На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ.
Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут.
BONUSP.S. Мы продолжим поддерживать Арену, добавлять новые модели, обновлять рейтинг несмотря на любые препятствия. Ваши голоса, как всегда очень важны и помогают формировать на объективный рейтинг моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
VseLLM — API-ключи & биллинг
Оплата и управление API-ключами VseLLM: единый OpenAI-совместимый доступ к 20+ LLM
2👍25💩5👎3❤2
Также обновилась на арене и экосистема Яндекса: YandexGPT 5.1 PRO и Alice AI LLM. Архитектуру заметно докрутили — модели стали гораздо лучше держать контекст и сложную инструкцию, став валидным выбором для локальных RAG-сценариев.
• Xiaomi MiMo-V2-Flash — MoE (309B total / 15B active). В бенчмарках SWE-bench бьет Claude Sonnet 4.5. По предварительным тестам идеальна для IDE.
• GLM-4.7 — флагман от Z.AI. Значительный буст в мульти-степ задачах и, внезапно, говорят хороша модель для генерации эстетичного фронтенда.
• MiniMax-M2.1 — всего 10B активных параметров. Лидер по соотношению latency/quality. По заявлениям выдает довольно быстро чистый и лаконичный код.
Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5🔥3
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года).
1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью.
• Reasoning-модели уже >50% всего трафика.
• xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash.
2. Open Source: Китай + “средний класс” моделей
• DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов.
• И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS.
• Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности.
3. Кодинг — наконец-то серьезный рост
• Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025.
• Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли.
• Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи.
4. Roleplay — скрытый потенциал.
В мире Open Source 52% всех токенов тратится на... Ролплей.
• Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры.
• Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга.
5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect)
Авторы ввели крутой термин для удержания пользователей.
• Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее.
• У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше.
6. Цена vs Качество
Рынок разделился на два лагеря:
• Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления.
• Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenRouter
State of AI 2025: 100T Token LLM Usage Study | OpenRouter
Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.
1👍15🔥6🤝4❤1
Нам нужна ваша помощь: За последние пару месяцев добавлено много новых моделей, но для отображения их в общем зачете критически не хватает голосов.
Пожалуйста, уделите пару минут и проголосуйте в анонимном сравнении. Это поможет нам быстрее откалибровать новинки и добавить их в таблицу.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤5🔥2
Теперь доступна вся линейка GPT 5+ от OpenAI (с 5 по 5.4). Стабилизировали работу Claude Haiku 4.5 и Claude Opus 4.1 — эти модели запрашивали чаще всего.
Улучшили скорость ответа и мониторинг на своей стороне: теперь будем оперативнее восстанавливать доступность в случае сбоев.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤2
LLM Arena
В мае этого года команда Generation AI продолжила изучать вопрос основываясь на нашем исследовании.
В 2026 году бизнес выбирает уже не «лучшую модель», а рабочую конфигурацию под конкретный процесс.
То есть лояльность к конкретной LLM почти исчезает. Именно поэтому главный навык бизнеса в 2026 году — не «выбрать модель один раз», а построить инфраструктуру, в которой смена модели становится штатным сценарием.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
LLM Arena
📈Рейтинги LLM теряют доверие
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
…
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
…
❤7👍5🔥4👎1💩1
Давно не добавляли новые модели — пора это исправить.
Мы видим, что интерес к проекту не просто сохраняется, а растет: каждый месяц в LLM Arena приходят новые пользователи, а анонимная арена продолжает получать ваши голоса. Для нас это лучший показатель того, что проект остается нужным и полезным.
Поэтому обновили пул моделей:
— добавили Gemini 3.5 Flash
— добавили GPT-5.5
— добавили Claude Opus 4.7
— добавили Claude Sonnet 4.6
— добавили Qwen 3.6 Max
Параллельно убрали несколько старых моделей, чтобы новые чаще попадались вам в ротации и быстрее набирали достаточное количество оценок.
Для нас ваша активность — это прямой сигнал, что LLM Arena нужно поддерживать дальше.
Напомним, что LLM Arena — один из немногих некоммерческих open-source проектов, где можно сравнивать и бесплатно тестировать разные LLM-модели в открытом формате и влиять на рейтинг своими голосами.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10💩2👍1👎1