эйай ньюз
93.7K subscribers
1.97K photos
1.03K videos
7 files
2.31K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Как попасть на работу в Frontier AI Lab

Вышел хороший пост от чела из DeepMind про то, как попасть в frontier lab сегодня. Автор сейчас lead for Gemini pretraining в GDM, а до этого дропнулся с PhD и пошел в стартап Sisu, где быстро стал Head of ML.

Суть поста коротко: если хочешь попасть в топовую AI-лабу, надо прокачивать mathematical maturity, жутко потеть во время универа (причем задрачивать без использования LLM), уметь очень хорошо кодить, и делать работу на “краях” LLM-стека – снизу kernels / inference / systems / quantization, сверху agents / rigorous evals / agentic loops. Не просто “поиграться с агентами”, а делать технически строгие эксперименты и показывать вклад, который реально нужен frontier labs.

В целом всё по делу, но мне кажется, что автор упускает несколько важных вещей.

Не весь интересный frontier-level research вне топ-лаб ограничивается разработкой кернелов, low-level оптимизациями LLM и написанием агентских врапперов.

И чтобы заниматься frontier research, не обязательно идти только в большие лабы типа OpenAI, Anthropic, Meta Superintelligence Labs или GDM.

Frontier-level research можно делать и в стартапах на более ранних стадиях. И часто там у вас будет в разы больше ownership, а рост по карьере и по скиллам будет намного быстрее.

Иронично, что сам автор как раз так и сделал: дропнулся с PhD, пошел в стартап, быстро стал Head of ML – и уже после этого попал в Google, причем сразу на Staff-level позицию.

В стартапах есть куча фундаментально интересных задач, где не нужны $100M+ бюджеты. Есть задачи, для которых достаточно “двузначных миллионов”, сильной команды и правильного технического фокуса.

А в бигтехе, если ты не Director+, ты часто просто взаимозаменяемый винтик, которому дают потрогать маленькую фичу в огромной системе. Ownership минимальный, scope ограничен, выбиться на следующий уровень очень и очень трудно. Большинство людей до Staff+ никогда в жизни так и не дорастают.

Да, стартапов, где реально сильная команда и где можно делать фундаментальные вещи, не так много. Но именно в такие стартапы можно попасть на восходящей траектории карьерного роста — когда у тебя еще нет крутого track record, который нужен, чтобы хотя бы пройти скрининг в топовую большую лабу, но видно как ты резко ускоряешься. (Именно такой принцип я и применяю, когда отбираю более молодых кандидатов к себе в стартап)

И там намного больше пространства для роста. Никто не будет искусственно ограничивать тебя в scope. Всё зависит от тебя: насколько ты готов ебашить, брать ответственность и тащить сложные куски.

Кстати, раз уж заговорили про стартапы: мы в GenPeach AI всегда рады пообщаться с выдающимися кандидатами на позицию AI Research Scientist. Это как раз роль про работу над foundation models - не “AI wrappers”, а pre-train и post-train своих large-scale моделей, O(PB) данных, SOTA ресерч по кастомным архитектурам и методам контроля генерации.

@ai_newz #карьера
🔥10451👍27😁19🦄5❤‍🔥4🤯3🙏2🤩1
Cerebras запустили Kimi K2.6 на скорости в тысячу токенов в секунду

Модель на триллион параметров на такой скорости запускается впервые, перед этим самой большой модель у Cerebras была GLM 4.7 на 358B. К сожалению это пока что доступно только энтерпрайз клиентам.

Кстати компания ещё вышла на IPO на прошлой неделе, привлекла $5.5 миллиардов и теперь стоит $56 миллиардов. У них всё хорошо, жду чего-то большего чем Codex Spark из их коллаборации с OpenAI.

@ai_newz
3🤩140🔥9321👍13🤯7🦄6😱1
OpenAI пофиксили баг с кэшем в Codex

Из-за него быстро выжирались лимиты, поэтому их снова ресетнули, Anthropic тут стоит поучиться. А ещё Тибо тизерит /slow режим для Codex, что было бы очень круто для несрочных объёмных тасков.

@ai_newz
1250👍64🔥42😁4🦄4🤯2😱1
Эвалы здорового человека

Все мы знаем этот классический флоу разработки LLM-фич — "потыкал промпт, вроде работает", и радостно катим всё это дело в прод. Чтобы уйти от хаотичного тестирования к нормальным предсказуемым системам, ребята из Школы Высшей Математики проводят вебинар про простые подходы к системному улучшению AI-продуктов.

Контент выглядит как мастхэв для ML-инженеров и разработчиков. Продакты смогут наконец-то оцифровать фидбэк юзеров и превратить продуктовые гипотезы в измеримые метрики для оценки экономической эффективности фич, а техлиды поймут, как грамотно выстроить процессы вокруг всей этой AI-разработки в команде.

На стриме обещают не просто сухую методологию измерения качества ответов языковых моделей. Будет полноценное live-демо всего цикла оценки продукта в реальном времени от сбора сырых логов до настройки автоматизированных систем. Заодно разберут production-стек инструментов и дадут готовый фреймворк, который можно сразу забрать внедрять в свои коммерческие или пет-проекты.

Вещать будут весьма компетентные люди — Андрей Киселев, Head of Product в AI-компании с бэкграундом из Revolut и Яндекса, и Федор Азаров, руководящий направлением по исследованию данных в Sber CIB.

Старт 28 мая 2026 года в 19:30 по мск.

Канал ШВМ
Регистрация на вебинар

#промо
😁5629👍15🫡11💔6🤯5🦄5
Нейродайджест за неделю (#117)

Аж за 3 недели 4.05 - 24.05.

LLM
- Обновление GPT Instant 5.5 — Модель поумнела, а в ChatGPT обновили интерфейс памяти, чтобы было понятно, на что опирается ответ.
- Mythos порвал разработчиков Firefox — Модель Mythos от Anthropic за месяц нашла 271 уязвимость (включая критические), обойдя результаты людей за полтора года.
- Управление роем агентов и режим /goal — В Claude Code завезли мульти-агентный режим и слизали фичу Codex, где модель не останавливается до достижения цели.
- Бесплатные API-кредиты для сторонних приложений — Anthropic будет насыпать подписчикам токены (до $200) для использования в сторонних тулах на базе Agent SDK.
- Приговор для TurboQuant на серверах — В vLLM детально протестили квантизацию KV-кэша. Для локального инференса годится, но на серверах деквантизация роняет пропускную способность до 70%.
- Первая модель из датацентров SpaceX — Cursor выпустили Composer 2.5 на базе K2.5. Модель стала умнее, но стоимость fast-режима выросла вдвое (до уровня Sonnet).
- Gemini 3.5 Flash написала свою ОС за 12 часов — Вышла Gemini 3.5 Flash с сильным упором на агентность. Модель заметно умнее, но цены выросли в 3 раза по сравнению с прошлой версией.
- Тысяча токенов в секунду на триллионнике — Cerebras (которые только что вышли на IPO) запустили Kimi K2.6 с безумной скоростью, пока только для энтерпрайз-клиентов.
- Ремонт кэша и тизер новых фич — OpenAI пофиксили баг с выжиранием лимитов в Codex и тизерят режим /slow для объёмных несрочных задач.

Генеративные модели
- Смерть линейки Veo — Google выпустила Gemini Omni. Модель теперь сама умеет в видеогенерацию.

Прочее
- Маск и Anthropic теперь партнеры — Anthropic арендует датацентр Colossus у SpaceX. В ответ Клоду вдвое подняли лимиты для подписчиков.
- Настоящая меха за $650k — Unitree показали робота GD01 весом в полтонны. Может ходить как на двух, так и на четырёх ногах.
- Анекдот про обезьяну и скейлинг лоуз — Немного нейросетевого юмора про стажеров и автоматизацию ресёрча.
- Миграция с Zig на Rust за 10 дней — Лид-разработчик Bun полностью переписал рантайм при помощи Claude. Новая версия стабильнее и быстрее.
- Счёт за токены на $1.3 млн в месяц — Создатели OpenClaw держат сотню агентов, которые сами ревьюят PR, слушают митинги и пишут код.
- Арендовать H100 почти нереально — В мире заканчиваются GPU. Старые A100 стоят дороже, чем два года назад, а неоклауды отдают всё крупным игрокам.
- Андрей Карпатый вышел с вольных хлебов — Легендарный ресерчер поддался FOMO и официально присоединился к Anthropic.

Личное
- Голосовухи от рекрутеров в LinkedIn — Заанлочил новый уровень безумия: рекрутеры скидывают аудиосообщения, пытаясь схантить людей к нам в GenPeach AI.
- Как попасть в топовую AI-лабу или стартап — Мои мысли о карьерном пути в frontier-лабы и почему стартапы (как наш) часто дают больше ownership и пространства для быстрого роста.

> Читать дайджест #116

#дайджест
@ai_newz
151👍23🔥14💯2🫡2❤‍🔥1🙏1🦄1
Bonsai Image 4B — чудеса квантизации

Стартап PrismML, специализирующийся на экстремальном сжатии моделек, сделал квантизированную до одного бита FLUX.2 Klein 4B, вышло на удивление достойно. С таким уровнем квантизации Diffusion Transformer занимает всего лишь 930 мегабайт в 1-битном варианте и 1.2 гигабайта в тернарном варианте. Текстовый энкодер настолько же сильно ужать не удалось, поэтому весь комплект весит ~3.5 гига.

Такая квантизация позволяет запускать модель прямо в браузере и на телефонах, используя лишь 2 гигабайта оперативки. На генерацию 512x512 картинки на iPhone 17 Pro Max с такой моделью уходит 9.4 секунды при 4 шагах, что неплохо если учитывать факт офлоадинга. Ждём моделек побольше, для локального деплоймента.

Инференс в браузере
Веса

@ai_newz
2👍174🔥10044🤯22😁2🦄2🤩1
На Хабре вышел подробный разбор массивного whitepaper от Сбера «AI-Disrupt PDLC». ИИ-энтузиаст продрался через 337 тысяч знаков документа и вытащил оттуда реальную архитектуру перехода к агентной разработке, отсеяв маркетинг для C-level. Главный фокус в обзоре сделан на смене парадигмы: от написания кода к формированию намерения, где код становится лишь вторичным артефактом, а первична спецификация.

Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.

В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).

Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых больше нет дофамина от радости самостоятельного решения сложных задач, т.к. работу делают агенты.

Хабр

@ai_newz
1👍293😁10138🦄11🔥7🤯5😱2😍1💯1
Вышел Claude Opus 4.8

Модель стала заметно умнее на токен, новый low иногда обгоняет старый max. Количество токенов используемое на каждом уровне усилий увеличилось, но вместе с этим увеличили и лимиты в Claude Code.

Самое главное для меня — модель стала заметно честнее. Она меньше срезает углы, реже игнорирует проблемы и чаще будет признавать что она что-то не знает.

Цена за токен в обычном режиме осталась такой же, а fast режим сделали в три раза дешевле. А ещё обещают релиз Mythos через несколько недель для подписчиков.

Блогпост

@ai_newz
1🔥287👍6948🦄6😁3🤯1🤩1💯1
MiniMax выпустили M3

Миллион токенов контекста и мультимодальность, веса скоро можно будет скачать. Попробовать можно бесплатно в OpenCode.

Цена API — $0.6/$2.4 за миллион токенов на запросы до 512к и $1.2/$4.8 на запросы длиннее, первую неделю на запросы до 512к действует скидка 50%. Веса с пейпером обещают через 10 дней.

@ai_newz
👍115🔥37😱2613😁3❤‍🔥2😍2💯1
Хочу рассказать про моих друзей беларусов из стартапа GRAI

Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с музыкальными треками внутри приложения, например создавать ремиксы или изменять стиль мелодий. Тема интересная, так как до сих пор нет нормального социального приложения, где бы можно было угарать и креативить на базе существующих треков. В отличие от того же Suno, в GRAI заключают соглашения с музыкантами и лейблами, чтобы на легальной основе можно было делать ремиксы и не нарваться на нарушение авторских прав.

Так вот, GRAI недавно зарейзили $9M seed раунд (топ!) и сейчас хайрят Senior ML Engineer (RecSys для музыки) и Research Engineer (тренить аудио-модели), желательно с опытом в аудио генеративных моделях.

Ребята базируются в Варшаве, но готовы рассмотреть и remote. Один из фаундеров, Илья, уже делал exit - продал Vochi в Pinterest 4 года назад, что очень круто и говорит о том, что контора серьезная. Так что рекомендую!

Ну, а матерых спецов в Visual Gen AI милости просим закинуть заявку к нам в GenPeach AI 🙂

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
12118🔥37🦄20👍10😁10🤯3💔3🫡3😱2🙏2💯1
Odysseus — ИИ-лаунчер от PewDiePie

Пьюдипай прошел основную сюжетную ветку этой жизни и собирает сайд-квесты. Сначала он научился рисовать мангу, а теперь пошел в герои опенсорс комьюнити, выкатив Odysseus — опенсорсный лаунчер для селф-хостинга нейросетей.

Из коробки UX на уровне ChatGPT или Claude, но локально и с полным контролем. Внутри куча полезных фич типа агентного режима на базе Open Code, Deep Research, Cookbook, который сам сканирует железо и качает подходящие веса, а еще минималистичный аналог фотошопа на нейростеройдах.

Большинство читающих и так всё задеплоят сами, но здесь упор именно на рядового пользователя. Правда вот не у каждого найдется свой GPU-юнит в гараже, но при желании можно юзать API любимых провайдеров, так хотя бы ваши данные хранятся локально (но не факт, т.к. вместе с запросами все будет улетать на сервера провайдеров). Доступно в опенсорсе, под MIT лицензией.

Видео релиза
Project Page
GitHub

@ai_newz
2🤩15676🔥41👍27😁20❤‍🔥4🦄4💔3🤯1
Gemma 4 12B

Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами. Модель ризонер, с 256к контекста и лицензией Apache 2.0.

Самое интересное в релизе — то как в нём устроена мультимодальность. Обычно моделям для мультимодальности нужен отдельный энкодер, здесь же они обходятся простыми линейными проекциями, что требует меньше параметров и вычислений.

Техрепорта к сожалению нет, так что как они это умудрились натренировать пока непонятно. Надеюсь что его, как и старшую Gemma 4 124B, всё таки когда-то релизнут.

Веса

@ai_newz
1🔥16538👍34🦄12😁5🤯2🤩21🫡1
Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою новую фронтир LLM с ризонингом.

На арене ее вроде пока нет, но чтиво все равно интересное. Давно таких подробных репортов с техническими деталями никто из Биг Техов не выпускал.

MAI-Thinking-1 - это 35B active / 1T total parameter MoE.

256k token window (влазит 600-страничный документ)

Тренили ее на кластере с 8000 GB200.

Упор делали больше на данные и рецепт тренировки, нежели на новшевства в архитектуре.

В опенсорс не кладут, но дадут API для файнтюна.

Блогпост
Тех-репорт

@ai_newz
76🔥30👍22😁5🤩5🦄52🤯2😱1
У SpaceX новый клиент — Google

В эту пятницу у компании IPO, так что лишняя выручка им не помешает. За аренду 110 тысяч видеокарт Blackwell они будут получать по 920 миллионов долларов в месяц, $11,6 за GPU-час. Вместе с контрактом с Anthropic на 1,25 миллиарда в месяц, это означает 26 миллиардов проецируемой выручки в год от сдачи датацентров в аренду.

Если честно то это очень дорого в пересчёте на GPU-час даже для B300. Тут как будто то бы за срочность и гигантский объем идет доплата.

@ai_newz
🤯24346👍28🔥17🦄9🤩3🙏2❤‍🔥1💔1
Нейродайджест за две недели (#118)

LLM
- Opus 4.8 — Модель стала честнее, реже срезает углы и лучше признает, если чего-то не знает. Новый low-режим иногда обгоняет старый max, а fast-версия подешевела в три раза.
- MiniMax M3 — Вышла модель M3 с миллионом токенов контекста, веса обещают на днях.
- Gemma 4 12B — Открытая мультимодальность без энкодеров. Google выкатили Gemma 4 12B. Это гибридный ризонер с 256к контекста (лицензия Apache 2.0), который ест видео, аудио и картинки через простые линейные проекции.
- MAI-Thinking-1 — Microsoft опубликовали редкий в наши дни подробный техрепорт о тренировке MAI-Thinking-1. В опенсорс не отдадут, но дадут API для файнтюна.

Генеративные модели
- Чудеса экстремальной квантизации — Стартап PrismML ужал FLUX.2 Klein 4B до 1 бита. Диффузионный трансформер теперь весит всего 930 МБ и бодро генерит картинки прямо в браузере или на iPhone.
- Легальные нейро-ремиксы и $9M инвестиций — Мои друзья из стартапа GRAI строят AI music lab. Сейчас активно хайрят ML и Research инженеров в Варшаву или на удаленку.

Прочее
- Опенсорсный ИИ-лаунчер от Пьюдипая — PewDiePie выкатил Odysseus для селф-хостинга нейросетей. UX на уровне ChatGPT, но локально: с агентным режимом, Deep Research и встроенным Cookbook.
- Новый мега-клиент датацентров SpaceX — Google будет арендовать у Маска 110 тысяч Blackwell за $920 млн в месяц. В год датацентры будут приносить Маску около $26 млрд.

> Читать дайджест #117

#дайджест
@ai_newz
54🔥22❤‍🔥10👍9💔3
Вышел Claude 5 Fable

Это общедоступная версия Mythos, в которую засунули дополнительные сейфгарды которых нет в полноценной модели. Она уже доступна в API по цене $10/$50 за миллион токенов. В подписке модель доступна до 22 июня, дальше только за кредиты.

Блогпост

@ai_newz
👍15349🔥43😁15💔15🤯14🦄1
Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и работы с датасетами, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу. Для этого используют полный арсенал методов — steering векторы, переписывание промптов и даже изменение весов.

Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.

То, что такие меры абсолютно непрозрачные, делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.

Короче, осуждаем.

@ai_newz
😁224🤯129💔5128👍25💯20🫡16😱10🦄4
Самое ценное в современном ML это возможность поделиться своими наработками и подглядеть, а что там у других. ИИшка целиком построена на заимствовании и переопылении. Поэтому какого бы размера не был ваш проект, посещать конфы нужно в любой доступной форме. Доехать до CVPR уже не получится (уже завершилась), но вполне себе можно успеть 18-го июля попасть на Turbo ML Conf 2026 в Москве.

Орги обещают 3 потока: Fundamental Advances & Exploratory R&D,Applied ML at Scale & Business Impact, и ML Infrastructure, Platforms & Engineering Core.

Но конфах самое важное это нетворкинг. Так что ребята сделали ставку на более прикладных кейсах, чтобы у вас было больше возможностей их обсудить за чашечкой кофе или чего-то более интересного.

Конфа бесплатная, но нужно успеть зарегаться, чтобы потом не просить проходку у тимлида.

@ai_newz
1👍152😁9086🔥5🤯2😱2💔2🫡2❤‍🔥1
DiffusionGemma

Google релизнули дифузионную версию геммы 26BA4B. Модель в 4 раза быстрее при таком же количестве параметров — на H100 она выдаёт 1000 токенов в секунду, а на RTX 5090 очень неплохие 700. Качество падает по сравнению с авторегрессионной моделью, но тренировать текстовую диффузию всё ещё учатся, это не удивительно. Приятно видеть что работа над диффузией для ллм не останавливается, а то демка Gemini Diffusion год назад в релиз так и не ушла.

Веса

Блогпост

@ai_newz
4163👍52🔥34🤯3❤‍🔥1