Эвалы здорового человека
Все мы знаем этот классический флоу разработки LLM-фич — "потыкал промпт, вроде работает", и радостно катим всё это дело в прод. Чтобы уйти от хаотичного тестирования к нормальным предсказуемым системам, ребята из Школы Высшей Математики проводят вебинар про простые подходы к системному улучшению AI-продуктов.
Контент выглядит как мастхэв для ML-инженеров и разработчиков. Продакты смогут наконец-то оцифровать фидбэк юзеров и превратить продуктовые гипотезы в измеримые метрики для оценки экономической эффективности фич, а техлиды поймут, как грамотно выстроить процессы вокруг всей этой AI-разработки в команде.
На стриме обещают не просто сухую методологию измерения качества ответов языковых моделей. Будет полноценное live-демо всего цикла оценки продукта в реальном времени от сбора сырых логов до настройки автоматизированных систем. Заодно разберут production-стек инструментов и дадут готовый фреймворк, который можно сразу забрать внедрять в свои коммерческие или пет-проекты.
Вещать будут весьма компетентные люди — Андрей Киселев, Head of Product в AI-компании с бэкграундом из Revolut и Яндекса, и Федор Азаров, руководящий направлением по исследованию данных в Sber CIB.
Старт 28 мая 2026 года в 19:30 по мск.
Канал ШВМ
Регистрация на вебинар
#промо
Все мы знаем этот классический флоу разработки LLM-фич — "потыкал промпт, вроде работает", и радостно катим всё это дело в прод. Чтобы уйти от хаотичного тестирования к нормальным предсказуемым системам, ребята из Школы Высшей Математики проводят вебинар про простые подходы к системному улучшению AI-продуктов.
Контент выглядит как мастхэв для ML-инженеров и разработчиков. Продакты смогут наконец-то оцифровать фидбэк юзеров и превратить продуктовые гипотезы в измеримые метрики для оценки экономической эффективности фич, а техлиды поймут, как грамотно выстроить процессы вокруг всей этой AI-разработки в команде.
На стриме обещают не просто сухую методологию измерения качества ответов языковых моделей. Будет полноценное live-демо всего цикла оценки продукта в реальном времени от сбора сырых логов до настройки автоматизированных систем. Заодно разберут production-стек инструментов и дадут готовый фреймворк, который можно сразу забрать внедрять в свои коммерческие или пет-проекты.
Вещать будут весьма компетентные люди — Андрей Киселев, Head of Product в AI-компании с бэкграундом из Revolut и Яндекса, и Федор Азаров, руководящий направлением по исследованию данных в Sber CIB.
Старт 28 мая 2026 года в 19:30 по мск.
Канал ШВМ
Регистрация на вебинар
#промо
😁56❤29👍15🫡11💔6🤯5🦄5
Нейродайджест за неделю (#117)
Аж за 3 недели 4.05 - 24.05.
LLM
- Обновление GPT Instant 5.5 — Модель поумнела, а в ChatGPT обновили интерфейс памяти, чтобы было понятно, на что опирается ответ.
- Mythos порвал разработчиков Firefox — Модель Mythos от Anthropic за месяц нашла 271 уязвимость (включая критические), обойдя результаты людей за полтора года.
- Управление роем агентов и режим /goal — В Claude Code завезли мульти-агентный режим и слизали фичу Codex, где модель не останавливается до достижения цели.
- Бесплатные API-кредиты для сторонних приложений — Anthropic будет насыпать подписчикам токены (до $200) для использования в сторонних тулах на базе Agent SDK.
- Приговор для TurboQuant на серверах — В vLLM детально протестили квантизацию KV-кэша. Для локального инференса годится, но на серверах деквантизация роняет пропускную способность до 70%.
- Первая модель из датацентров SpaceX — Cursor выпустили Composer 2.5 на базе K2.5. Модель стала умнее, но стоимость fast-режима выросла вдвое (до уровня Sonnet).
- Gemini 3.5 Flash написала свою ОС за 12 часов — Вышла Gemini 3.5 Flash с сильным упором на агентность. Модель заметно умнее, но цены выросли в 3 раза по сравнению с прошлой версией.
- Тысяча токенов в секунду на триллионнике — Cerebras (которые только что вышли на IPO) запустили Kimi K2.6 с безумной скоростью, пока только для энтерпрайз-клиентов.
- Ремонт кэша и тизер новых фич — OpenAI пофиксили баг с выжиранием лимитов в Codex и тизерят режим /slow для объёмных несрочных задач.
Генеративные модели
- Смерть линейки Veo — Google выпустила Gemini Omni. Модель теперь сама умеет в видеогенерацию.
Прочее
- Маск и Anthropic теперь партнеры — Anthropic арендует датацентр Colossus у SpaceX. В ответ Клоду вдвое подняли лимиты для подписчиков.
- Настоящая меха за $650k — Unitree показали робота GD01 весом в полтонны. Может ходить как на двух, так и на четырёх ногах.
- Анекдот про обезьяну и скейлинг лоуз — Немного нейросетевого юмора про стажеров и автоматизацию ресёрча.
- Миграция с Zig на Rust за 10 дней — Лид-разработчик Bun полностью переписал рантайм при помощи Claude. Новая версия стабильнее и быстрее.
- Счёт за токены на $1.3 млн в месяц — Создатели OpenClaw держат сотню агентов, которые сами ревьюят PR, слушают митинги и пишут код.
- Арендовать H100 почти нереально — В мире заканчиваются GPU. Старые A100 стоят дороже, чем два года назад, а неоклауды отдают всё крупным игрокам.
- Андрей Карпатый вышел с вольных хлебов — Легендарный ресерчер поддался FOMO и официально присоединился к Anthropic.
Личное
- Голосовухи от рекрутеров в LinkedIn — Заанлочил новый уровень безумия: рекрутеры скидывают аудиосообщения, пытаясь схантить людей к нам в GenPeach AI.
- Как попасть в топовую AI-лабу или стартап — Мои мысли о карьерном пути в frontier-лабы и почему стартапы (как наш) часто дают больше ownership и пространства для быстрого роста.
> Читать дайджест #116
#дайджест
@ai_newz
Аж за 3 недели 4.05 - 24.05.
LLM
- Обновление GPT Instant 5.5 — Модель поумнела, а в ChatGPT обновили интерфейс памяти, чтобы было понятно, на что опирается ответ.
- Mythos порвал разработчиков Firefox — Модель Mythos от Anthropic за месяц нашла 271 уязвимость (включая критические), обойдя результаты людей за полтора года.
- Управление роем агентов и режим /goal — В Claude Code завезли мульти-агентный режим и слизали фичу Codex, где модель не останавливается до достижения цели.
- Бесплатные API-кредиты для сторонних приложений — Anthropic будет насыпать подписчикам токены (до $200) для использования в сторонних тулах на базе Agent SDK.
- Приговор для TurboQuant на серверах — В vLLM детально протестили квантизацию KV-кэша. Для локального инференса годится, но на серверах деквантизация роняет пропускную способность до 70%.
- Первая модель из датацентров SpaceX — Cursor выпустили Composer 2.5 на базе K2.5. Модель стала умнее, но стоимость fast-режима выросла вдвое (до уровня Sonnet).
- Gemini 3.5 Flash написала свою ОС за 12 часов — Вышла Gemini 3.5 Flash с сильным упором на агентность. Модель заметно умнее, но цены выросли в 3 раза по сравнению с прошлой версией.
- Тысяча токенов в секунду на триллионнике — Cerebras (которые только что вышли на IPO) запустили Kimi K2.6 с безумной скоростью, пока только для энтерпрайз-клиентов.
- Ремонт кэша и тизер новых фич — OpenAI пофиксили баг с выжиранием лимитов в Codex и тизерят режим /slow для объёмных несрочных задач.
Генеративные модели
- Смерть линейки Veo — Google выпустила Gemini Omni. Модель теперь сама умеет в видеогенерацию.
Прочее
- Маск и Anthropic теперь партнеры — Anthropic арендует датацентр Colossus у SpaceX. В ответ Клоду вдвое подняли лимиты для подписчиков.
- Настоящая меха за $650k — Unitree показали робота GD01 весом в полтонны. Может ходить как на двух, так и на четырёх ногах.
- Анекдот про обезьяну и скейлинг лоуз — Немного нейросетевого юмора про стажеров и автоматизацию ресёрча.
- Миграция с Zig на Rust за 10 дней — Лид-разработчик Bun полностью переписал рантайм при помощи Claude. Новая версия стабильнее и быстрее.
- Счёт за токены на $1.3 млн в месяц — Создатели OpenClaw держат сотню агентов, которые сами ревьюят PR, слушают митинги и пишут код.
- Арендовать H100 почти нереально — В мире заканчиваются GPU. Старые A100 стоят дороже, чем два года назад, а неоклауды отдают всё крупным игрокам.
- Андрей Карпатый вышел с вольных хлебов — Легендарный ресерчер поддался FOMO и официально присоединился к Anthropic.
Личное
- Голосовухи от рекрутеров в LinkedIn — Заанлочил новый уровень безумия: рекрутеры скидывают аудиосообщения, пытаясь схантить людей к нам в GenPeach AI.
- Как попасть в топовую AI-лабу или стартап — Мои мысли о карьерном пути в frontier-лабы и почему стартапы (как наш) часто дают больше ownership и пространства для быстрого роста.
> Читать дайджест #116
#дайджест
@ai_newz
1❤51👍23🔥14💯2🫡2❤🔥1🙏1🦄1
Bonsai Image 4B — чудеса квантизации
Стартап PrismML, специализирующийся на экстремальном сжатии моделек, сделал квантизированную до одного бита FLUX.2 Klein 4B, вышло на удивление достойно. С таким уровнем квантизации Diffusion Transformer занимает всего лишь 930 мегабайт в 1-битном варианте и 1.2 гигабайта в тернарном варианте. Текстовый энкодер настолько же сильно ужать не удалось, поэтому весь комплект весит ~3.5 гига.
Такая квантизация позволяет запускать модель прямо в браузере и на телефонах, используя лишь 2 гигабайта оперативки. На генерацию 512x512 картинки на iPhone 17 Pro Max с такой моделью уходит 9.4 секунды при 4 шагах, что неплохо если учитывать факт офлоадинга. Ждём моделек побольше, для локального деплоймента.
Инференс в браузере
Веса
@ai_newz
Стартап PrismML, специализирующийся на экстремальном сжатии моделек, сделал квантизированную до одного бита FLUX.2 Klein 4B, вышло на удивление достойно. С таким уровнем квантизации Diffusion Transformer занимает всего лишь 930 мегабайт в 1-битном варианте и 1.2 гигабайта в тернарном варианте. Текстовый энкодер настолько же сильно ужать не удалось, поэтому весь комплект весит ~3.5 гига.
Такая квантизация позволяет запускать модель прямо в браузере и на телефонах, используя лишь 2 гигабайта оперативки. На генерацию 512x512 картинки на iPhone 17 Pro Max с такой моделью уходит 9.4 секунды при 4 шагах, что неплохо если учитывать факт офлоадинга. Ждём моделек побольше, для локального деплоймента.
Инференс в браузере
Веса
@ai_newz
2👍174🔥100❤44🤯22😁2🦄2🤩1
На Хабре вышел подробный разбор массивного whitepaper от Сбера «AI-Disrupt PDLC». ИИ-энтузиаст продрался через 337 тысяч знаков документа и вытащил оттуда реальную архитектуру перехода к агентной разработке, отсеяв маркетинг для C-level. Главный фокус в обзоре сделан на смене парадигмы: от написания кода к формированию намерения, где код становится лишь вторичным артефактом, а первична спецификация.
Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.
В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).
Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых больше нет дофамина от радости самостоятельного решения сложных задач, т.к. работу делают агенты.
Хабр
@ai_newz
Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.
В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).
Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых больше нет дофамина от радости самостоятельного решения сложных задач, т.к. работу делают агенты.
Хабр
@ai_newz
1👍293😁101❤38🦄11🔥7🤯5😱2😍1💯1
Вышел Claude Opus 4.8
Модель стала заметно умнее на токен, новый low иногда обгоняет старый max. Количество токенов используемое на каждом уровне усилий увеличилось, но вместе с этим увеличили и лимиты в Claude Code.
Самое главное для меня — модель стала заметно честнее. Она меньше срезает углы, реже игнорирует проблемы и чаще будет признавать что она что-то не знает.
Цена за токен в обычном режиме осталась такой же, а fast режим сделали в три раза дешевле. А ещё обещают релиз Mythos через несколько недель для подписчиков.
Блогпост
@ai_newz
Модель стала заметно умнее на токен, новый low иногда обгоняет старый max. Количество токенов используемое на каждом уровне усилий увеличилось, но вместе с этим увеличили и лимиты в Claude Code.
Самое главное для меня — модель стала заметно честнее. Она меньше срезает углы, реже игнорирует проблемы и чаще будет признавать что она что-то не знает.
Цена за токен в обычном режиме осталась такой же, а fast режим сделали в три раза дешевле. А ещё обещают релиз Mythos через несколько недель для подписчиков.
Блогпост
@ai_newz
1🔥287👍69❤48🦄6😁3🤯1🤩1💯1
MiniMax выпустили M3
Миллион токенов контекста и мультимодальность, веса скоро можно будет скачать. Попробовать можно бесплатно в OpenCode.
Цена API — $0.6/$2.4 за миллион токенов на запросы до 512к и $1.2/$4.8 на запросы длиннее, первую неделю на запросы до 512к действует скидка 50%. Веса с пейпером обещают через 10 дней.
@ai_newz
Миллион токенов контекста и мультимодальность, веса скоро можно будет скачать. Попробовать можно бесплатно в OpenCode.
Цена API — $0.6/$2.4 за миллион токенов на запросы до 512к и $1.2/$4.8 на запросы длиннее, первую неделю на запросы до 512к действует скидка 50%. Веса с пейпером обещают через 10 дней.
@ai_newz
👍115🔥37😱26❤13😁3❤🔥2😍2💯1
Хочу рассказать про моих друзей беларусов из стартапа GRAI
Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с музыкальными треками внутри приложения, например создавать ремиксы или изменять стиль мелодий. Тема интересная, так как до сих пор нет нормального социального приложения, где бы можно было угарать и креативить на базе существующих треков. В отличие от того же Suno, в GRAI заключают соглашения с музыкантами и лейблами, чтобы на легальной основе можно было делать ремиксы и не нарваться на нарушение авторских прав.
Так вот, GRAI недавно зарейзили $9M seed раунд (топ!) и сейчас хайрят Senior ML Engineer (RecSys для музыки) и Research Engineer (тренить аудио-модели), желательно с опытом в аудио генеративных моделях.
Ребята базируются в Варшаве, но готовы рассмотреть и remote. Один из фаундеров, Илья, уже делал exit - продал Vochi в Pinterest 4 года назад, что очень круто и говорит о том, что контора серьезная. Так что рекомендую!
Ну, а матерых спецов в Visual Gen AI милости просим закинуть заявку к нам в GenPeach AI🙂
@ai_newz
Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с музыкальными треками внутри приложения, например создавать ремиксы или изменять стиль мелодий. Тема интересная, так как до сих пор нет нормального социального приложения, где бы можно было угарать и креативить на базе существующих треков. В отличие от того же Suno, в GRAI заключают соглашения с музыкантами и лейблами, чтобы на легальной основе можно было делать ремиксы и не нарваться на нарушение авторских прав.
Так вот, GRAI недавно зарейзили $9M seed раунд (топ!) и сейчас хайрят Senior ML Engineer (RecSys для музыки) и Research Engineer (тренить аудио-модели), желательно с опытом в аудио генеративных моделях.
Ребята базируются в Варшаве, но готовы рассмотреть и remote. Один из фаундеров, Илья, уже делал exit - продал Vochi в Pinterest 4 года назад, что очень круто и говорит о том, что контора серьезная. Так что рекомендую!
Ну, а матерых спецов в Visual Gen AI милости просим закинуть заявку к нам в GenPeach AI
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
TechCrunch
GRAI believes AI can make music more social, not replace artists | TechCrunch
AI music startup GRAI says fans want to remix tracks, not generate songs from scratch.
12❤118🔥37🦄20👍10😁10🤯3💔3🫡3😱2🙏2💯1
Odysseus — ИИ-лаунчер от PewDiePie
Пьюдипай прошел основную сюжетную ветку этой жизни и собирает сайд-квесты. Сначала он научился рисовать мангу, а теперь пошел в герои опенсорс комьюнити, выкатив Odysseus — опенсорсный лаунчер для селф-хостинга нейросетей.
Из коробки UX на уровне ChatGPT или Claude, но локально и с полным контролем. Внутри куча полезных фич типа агентного режима на базе Open Code, Deep Research, Cookbook, который сам сканирует железо и качает подходящие веса, а еще минималистичный аналог фотошопа на нейростеройдах.
Большинство читающих и так всё задеплоят сами, но здесь упор именно на рядового пользователя. Правда вот не у каждого найдется свой GPU-юнит в гараже, но при желании можно юзать API любимых провайдеров, так хотя бы ваши данные хранятся локально (но не факт, т.к. вместе с запросами все будет улетать на сервера провайдеров). Доступно в опенсорсе, под MIT лицензией.
Видео релиза
Project Page
GitHub
@ai_newz
Пьюдипай прошел основную сюжетную ветку этой жизни и собирает сайд-квесты. Сначала он научился рисовать мангу, а теперь пошел в герои опенсорс комьюнити, выкатив Odysseus — опенсорсный лаунчер для селф-хостинга нейросетей.
Из коробки UX на уровне ChatGPT или Claude, но локально и с полным контролем. Внутри куча полезных фич типа агентного режима на базе Open Code, Deep Research, Cookbook, который сам сканирует железо и качает подходящие веса, а еще минималистичный аналог фотошопа на нейростеройдах.
Большинство читающих и так всё задеплоят сами, но здесь упор именно на рядового пользователя. Правда вот не у каждого найдется свой GPU-юнит в гараже, но при желании можно юзать API любимых провайдеров, так хотя бы ваши данные хранятся локально (но не факт, т.к. вместе с запросами все будет улетать на сервера провайдеров). Доступно в опенсорсе, под MIT лицензией.
Видео релиза
Project Page
GitHub
@ai_newz
YouTube
MY trillion $Dollar Project is finally OUT!
Use code PEWDIEPIE at the link below to get an exclusive 60% off an annual Incogni plan: https://incogni.com/pewdiepie
⛵ Check out Odysseus: https://pewdiepie-archdaemon.github.io/odysseus/ ⛵
🌎 Get an exclusive 15% discount on Saily data plans! Use code…
⛵ Check out Odysseus: https://pewdiepie-archdaemon.github.io/odysseus/ ⛵
🌎 Get an exclusive 15% discount on Saily data plans! Use code…
2🤩156❤76🔥41👍27😁20❤🔥4🦄4💔3🤯1
Gemma 4 12B
Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами. Модель ризонер, с 256к контекста и лицензией Apache 2.0.
Самое интересное в релизе — то как в нём устроена мультимодальность. Обычно моделям для мультимодальности нужен отдельный энкодер, здесь же они обходятся простыми линейными проекциями, что требует меньше параметров и вычислений.
Техрепорта к сожалению нет, так что как они это умудрились натренировать пока непонятно. Надеюсь что его, как и старшую Gemma 4 124B, всё таки когда-то релизнут.
Веса
@ai_newz
Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами. Модель ризонер, с 256к контекста и лицензией Apache 2.0.
Самое интересное в релизе — то как в нём устроена мультимодальность. Обычно моделям для мультимодальности нужен отдельный энкодер, здесь же они обходятся простыми линейными проекциями, что требует меньше параметров и вычислений.
Техрепорта к сожалению нет, так что как они это умудрились натренировать пока непонятно. Надеюсь что его, как и старшую Gemma 4 124B, всё таки когда-то релизнут.
Веса
@ai_newz
1🔥165❤38👍34🦄12😁5🤯2🤩2⚡1🫡1
Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою новую фронтир LLM с ризонингом.
На арене ее вроде пока нет, но чтиво все равно интересное. Давно таких подробных репортов с техническими деталями никто из Биг Техов не выпускал.
MAI-Thinking-1 - это 35B active / 1T total parameter MoE.
256k token window (влазит 600-страничный документ)
Тренили ее на кластере с 8000 GB200.
Упор делали больше на данные и рецепт тренировки, нежели на новшевства в архитектуре.
В опенсорс не кладут, но дадут API для файнтюна.
Блогпост
Тех-репорт
@ai_newz
На арене ее вроде пока нет, но чтиво все равно интересное. Давно таких подробных репортов с техническими деталями никто из Биг Техов не выпускал.
MAI-Thinking-1 - это 35B active / 1T total parameter MoE.
256k token window (влазит 600-страничный документ)
Тренили ее на кластере с 8000 GB200.
Упор делали больше на данные и рецепт тренировки, нежели на новшевства в архитектуре.
В опенсорс не кладут, но дадут API для файнтюна.
Блогпост
Тех-репорт
@ai_newz
Microsoft AI
Introducing MAI-Thinking-1 | Microsoft AI
❤76🔥30👍22😁5🤩5🦄5⚡2🤯2😱1
У SpaceX новый клиент — Google
В эту пятницу у компании IPO, так что лишняя выручка им не помешает. За аренду 110 тысяч видеокарт Blackwell они будут получать по 920 миллионов долларов в месяц, $11,6 за GPU-час. Вместе с контрактом с Anthropic на 1,25 миллиарда в месяц, это означает 26 миллиардов проецируемой выручки в год от сдачи датацентров в аренду.
Если честно то это очень дорого в пересчёте на GPU-час даже для B300. Тут как будто то бы за срочность и гигантский объем идет доплата.
@ai_newz
В эту пятницу у компании IPO, так что лишняя выручка им не помешает. За аренду 110 тысяч видеокарт Blackwell они будут получать по 920 миллионов долларов в месяц, $11,6 за GPU-час. Вместе с контрактом с Anthropic на 1,25 миллиарда в месяц, это означает 26 миллиардов проецируемой выручки в год от сдачи датацентров в аренду.
Если честно то это очень дорого в пересчёте на GPU-час даже для B300. Тут как будто то бы за срочность и гигантский объем идет доплата.
@ai_newz
🤯243❤46👍28🔥17🦄9🤩3🙏2❤🔥1💔1
Нейродайджест за две недели (#118)
LLM
- Opus 4.8 — Модель стала честнее, реже срезает углы и лучше признает, если чего-то не знает. Новый low-режим иногда обгоняет старый max, а fast-версия подешевела в три раза.
- MiniMax M3 — Вышла модель M3 с миллионом токенов контекста, веса обещают на днях.
- Gemma 4 12B — Открытая мультимодальность без энкодеров. Google выкатили Gemma 4 12B. Это гибридный ризонер с 256к контекста (лицензия Apache 2.0), который ест видео, аудио и картинки через простые линейные проекции.
- MAI-Thinking-1 — Microsoft опубликовали редкий в наши дни подробный техрепорт о тренировке MAI-Thinking-1. В опенсорс не отдадут, но дадут API для файнтюна.
Генеративные модели
- Чудеса экстремальной квантизации — Стартап PrismML ужал FLUX.2 Klein 4B до 1 бита. Диффузионный трансформер теперь весит всего 930 МБ и бодро генерит картинки прямо в браузере или на iPhone.
- Легальные нейро-ремиксы и $9M инвестиций — Мои друзья из стартапа GRAI строят AI music lab. Сейчас активно хайрят ML и Research инженеров в Варшаву или на удаленку.
Прочее
- Опенсорсный ИИ-лаунчер от Пьюдипая — PewDiePie выкатил Odysseus для селф-хостинга нейросетей. UX на уровне ChatGPT, но локально: с агентным режимом, Deep Research и встроенным Cookbook.
- Новый мега-клиент датацентров SpaceX — Google будет арендовать у Маска 110 тысяч Blackwell за $920 млн в месяц. В год датацентры будут приносить Маску около $26 млрд.
> Читать дайджест #117
#дайджест
@ai_newz
LLM
- Opus 4.8 — Модель стала честнее, реже срезает углы и лучше признает, если чего-то не знает. Новый low-режим иногда обгоняет старый max, а fast-версия подешевела в три раза.
- MiniMax M3 — Вышла модель M3 с миллионом токенов контекста, веса обещают на днях.
- Gemma 4 12B — Открытая мультимодальность без энкодеров. Google выкатили Gemma 4 12B. Это гибридный ризонер с 256к контекста (лицензия Apache 2.0), который ест видео, аудио и картинки через простые линейные проекции.
- MAI-Thinking-1 — Microsoft опубликовали редкий в наши дни подробный техрепорт о тренировке MAI-Thinking-1. В опенсорс не отдадут, но дадут API для файнтюна.
Генеративные модели
- Чудеса экстремальной квантизации — Стартап PrismML ужал FLUX.2 Klein 4B до 1 бита. Диффузионный трансформер теперь весит всего 930 МБ и бодро генерит картинки прямо в браузере или на iPhone.
- Легальные нейро-ремиксы и $9M инвестиций — Мои друзья из стартапа GRAI строят AI music lab. Сейчас активно хайрят ML и Research инженеров в Варшаву или на удаленку.
Прочее
- Опенсорсный ИИ-лаунчер от Пьюдипая — PewDiePie выкатил Odysseus для селф-хостинга нейросетей. UX на уровне ChatGPT, но локально: с агентным режимом, Deep Research и встроенным Cookbook.
- Новый мега-клиент датацентров SpaceX — Google будет арендовать у Маска 110 тысяч Blackwell за $920 млн в месяц. В год датацентры будут приносить Маску около $26 млрд.
> Читать дайджест #117
#дайджест
@ai_newz
❤54🔥22❤🔥10👍9💔3
Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и работы с датасетами, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу. Для этого используют полный арсенал методов — steering векторы, переписывание промптов и даже изменение весов.
Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.
То, что такие меры абсолютно непрозрачные, делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.
Короче, осуждаем.
@ai_newz
Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.
То, что такие меры абсолютно непрозрачные, делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.
Короче, осуждаем.
@ai_newz
😁224🤯129💔51❤28👍25💯20🫡16😱10🦄4
Самое ценное в современном ML это возможность поделиться своими наработками и подглядеть, а что там у других. ИИшка целиком построена на заимствовании и переопылении. Поэтому какого бы размера не был ваш проект, посещать конфы нужно в любой доступной форме. Доехать до CVPR уже не получится (уже завершилась), но вполне себе можно успеть 18-го июля попасть на Turbo ML Conf 2026 в Москве.
Орги обещают 3 потока: Fundamental Advances & Exploratory R&D,Applied ML at Scale & Business Impact, и ML Infrastructure, Platforms & Engineering Core.
Но конфах самое важное это нетворкинг. Так что ребята сделали ставку на более прикладных кейсах, чтобы у вас было больше возможностей их обсудить за чашечкой кофе или чего-то более интересного.
Конфа бесплатная, но нужно успеть зарегаться, чтобы потом не просить проходку у тимлида.
@ai_newz
Орги обещают 3 потока: Fundamental Advances & Exploratory R&D,Applied ML at Scale & Business Impact, и ML Infrastructure, Platforms & Engineering Core.
Но конфах самое важное это нетворкинг. Так что ребята сделали ставку на более прикладных кейсах, чтобы у вас было больше возможностей их обсудить за чашечкой кофе или чего-то более интересного.
Конфа бесплатная, но нужно успеть зарегаться, чтобы потом не просить проходку у тимлида.
@ai_newz
1👍152😁90❤86🔥5🤯2😱2💔2🫡2❤🔥1
DiffusionGemma
Google релизнули дифузионную версию геммы 26BA4B. Модель в 4 раза быстрее при таком же количестве параметров — на H100 она выдаёт 1000 токенов в секунду, а на RTX 5090 очень неплохие 700. Качество падает по сравнению с авторегрессионной моделью, но тренировать текстовую диффузию всё ещё учатся, это не удивительно. Приятно видеть что работа над диффузией для ллм не останавливается, а то демка Gemini Diffusion год назад в релиз так и не ушла.
Веса
Блогпост
@ai_newz
Google релизнули дифузионную версию геммы 26BA4B. Модель в 4 раза быстрее при таком же количестве параметров — на H100 она выдаёт 1000 токенов в секунду, а на RTX 5090 очень неплохие 700. Качество падает по сравнению с авторегрессионной моделью, но тренировать текстовую диффузию всё ещё учатся, это не удивительно. Приятно видеть что работа над диффузией для ллм не останавливается, а то демка Gemini Diffusion год назад в релиз так и не ушла.
Веса
Блогпост
@ai_newz
4❤163👍52🔥34🤯3❤🔥1
эйай ньюз
Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и работы с датасетами, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу.…
Anthropic откатывают решение о невидимой деградации Fable
В комментарии Wired представители Anthropic заявили что сделали ошибку. Компания видит это как трейдоф — невидимые ограничения сложнее обойти, из-за чего они могут нерфить лишь небольшую долю пользователей. Теперь ограничения сделают видимыми, но повысят чувствительность фильтров.
Это лютая дичь была. Надеюсь, я со своим linkedin постом тоже повлиял на то, что они дали заднюю.
@ai_newz
В комментарии Wired представители Anthropic заявили что сделали ошибку. Компания видит это как трейдоф — невидимые ограничения сложнее обойти, из-за чего они могут нерфить лишь небольшую долю пользователей. Теперь ограничения сделают видимыми, но повысят чувствительность фильтров.
Это лютая дичь была. Надеюсь, я со своим linkedin постом тоже повлиял на то, что они дали заднюю.
@ai_newz
1👍148😁110💔14🦄9❤6❤🔥5🙏3
Да, это безумные расходы. Но не каждый пользователь так интенсивно использует подписку на тот же ChatGPT. В среднем обыватели с подпиской plus платят за подписчиков, кто выжимает все токены из плана. Да и даже среди них не все максимизмруют usage 24/7.
Кроме того в цены на API, с которыми мы тут сравниваем, заложена дикая маржа. Там точно все в хороший плюс идет.
Так что по факту картинка расходов на юзера для OpenAI и Anthropic выглядит слегка лучше, чем на скрине.
@ai_newz
Кроме того в цены на API, с которыми мы тут сравниваем, заложена дикая маржа. Там точно все в хороший плюс идет.
Так что по факту картинка расходов на юзера для OpenAI и Anthropic выглядит слегка лучше, чем на скрине.
@ai_newz
Telegram
Denis Sexy IT 🤖
Тут опять пересчитали сколько костов вложено в подписки OpenAI / Anthropic если пересчитать на API цены, а не цены подписок
То что OpenAI за 200$ дает еще 13800$ бесплатно, это, конечно, безумие нашего времени – никакой стартап конкурировать с таким не сможет
То что OpenAI за 200$ дает еще 13800$ бесплатно, это, конечно, безумие нашего времени – никакой стартап конкурировать с таким не сможет
2❤70💯51👍30😁6🦄5🙏2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь пользователи могут сами сбрасывать лимиты Codex
Вместо глобального сброса лимитов, компания теперь будет давать возможность нажать на кнопку "сбросить лимиты" всем пользователям, которую можно будет использовать в любое удобное время в течении 30 дней. Всем был начислен один сброс лимита.
Вместе с этим OpenAI запустили реферальную акцию — каждый пользователь может пригласить до трёх друзей которые не использовали кодекс в последние два месяца и оба получат по дополнительному ресету когда приглашённый отправит первое сообщение кодексу.
Если вы хотите чтобы вас кто-то пригласил, добро пожаловать в комментарии
@ai_newz
Вместо глобального сброса лимитов, компания теперь будет давать возможность нажать на кнопку "сбросить лимиты" всем пользователям, которую можно будет использовать в любое удобное время в течении 30 дней. Всем был начислен один сброс лимита.
Вместе с этим OpenAI запустили реферальную акцию — каждый пользователь может пригласить до трёх друзей которые не использовали кодекс в последние два месяца и оба получат по дополнительному ресету когда приглашённый отправит первое сообщение кодексу.
Если вы хотите чтобы вас кто-то пригласил, добро пожаловать в комментарии
@ai_newz
1❤162🔥73😁52👍15🤩4💯1