эйай ньюз
93.7K subscribers
1.97K photos
1.03K videos
7 files
2.31K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
В блоге vLLM подробно протестили TurboQuant

Пару месяцев назад нашумел пейпер годовой давности от гугла про метод квантизации kv кэша, который даже немного обвалил акции компаний производителей оперативки. Ну и тут алгоритм решили нормально так протестить — взяли 3 разные архитектуры моделей, прогнали по бенчам и замерили производительность. Результаты вышли интересные.

Оказалось что по качеству k8v4 и 4bit-nc варианты TurboQuant вполне неплохо себя ведут — почти не теряют поинтов на бенчах, при этом занимая на 15-35% меньше места чем fp8 кэш. Но как только дело доходит до трёхбитной квантизации, результаты начинают сильно проседать, особенно на бенчах требующих понимания длинного контекста.

А вот по производительности результаты не очень весёлые для TurboQuant. Размер KV кэша, по сравнению с fp8, хоть и падает, но даётся крайне большой ценой — постоянная деквантизация дропает пропускную способность от 10% аж до 70%, в зависимости от сценария. Так что это метод который применим при локальном инференсе, но на серверах про него можно забыть.

Поздравляю всех кто купил акции производителей памяти по скидке

Блогпост


@ai_newz
😁126👍4023🔥6🤯5💔3🤩1
😮 Создатели OpenClaw используют токенов на 1,3 миллиона долларов в месяц

Одновременно у команды из 3-6 разработчиков запущена сотня агентов, которые ревьювят все пулреквесты, коммиты и ишью, ну и конечно же пишут весь код. Агенты слушают митинги команды и начинают сразу имплементировать обсуждаемые фичи. Такая цена во многом из-за fast режима, который в 2.5x дороже обычного. Ну и разумеется за всё платит OpenAI, где работает главный разработчик.

Полное описание воркфлоу

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯462😁119🔥5721😱7🦄7👍6🤩5❤‍🔥1
Ты понимаешь, что заанлочил новый уровень безумия на линкедин, когда рекрутеры начинают оставлять тебе голосовухи в лс. Карл, голосовухи!

Только теперь как фаундеру, когда мне пишут, то пытаются не меня схантить, а пытаются предложить зарекрутить кого-то к нам в GenPeach AI 😁

Этот, например, предлагает схантить к нам остатки толковых людей из Stability AI.

@ai_newz
🤯145😁94😱2110👍6🔥3🦄2💯1
В мире заканчиваются GPU

За последнее время сервера с GPU становится всё сложнее и сложнее арендовать, например прямо сейчас я не смог найти публичного провайдера, у которого можно арендовать даже 8xH100 (ну на васте есть еще пара машин), не говоря уже про кластер побольше. Да и даже одну единственную видеокарту стало сложно ухватить. A100 сейчас стоит дороже чем два года назад, видеокарта, на минуточку, уже почти шесть лет на рынке. На более новые видюхи цена тоже выросла в 1.5-2 раза.

Улучшения ситуации в ближайшее время не предвидится. Неоклауды не видят смысла сдавать GPU в аренду публично или на короткий срок, если всё и так купит антропик. А как вы решаете проблемы с компьютом?

@ai_newz
🤯254🫡46😱3318💔8😁6👍5💯5🙏2🔥1
Cursor выпустили Composer 2.5

За два месяца модель заметно прокачали по бенчам, используя ту же базу K2.5. Количество синтетических тасков на которых тренировали модель увеличили в 25 раз. Это первая модель Cursor, натренированная в датацентрах SpaceXAI, они уже совместно тренируют заметно большую модель, используя в 10 раз больше компьюта. Скорее всего от результатов этой модели и будет зависить приобретёт ли SpaceX Cursor или нет.

С выходом новой модели удвоили стоимость fast mode, который включен по дефолту, теперь он стоит $3/$15 за миллион токенов, что равно стоимости Sonnet. Цена обычного режима не изменилась — $0.5/$2.5.

Блогпост

@ai_newz
81🤯26👍17😁9🦄9🔥2
Главный навык на ближайшие годы — ВАЙБ-КОДИНГ

LLM уже пишут код, чинят баги, генерируют тесты, документацию и помогают запускать продукты в разы быстрее, чем это делали классические команды разработки. И это уже не "будущее когда-нибудь", а суровая реальность, которая меняет рынок прямо сейчас.

И те, кто научится вайбкодить сейчас, будут увереннее конкурировать на рынке и зарабатывать больше тех, кто по-прежнему хардокодит всё вручную (ну, по крайней мере, пока нас всех окончательно не заменят ИИ-агенты).

Стартовать с нуля поможет канал Вайб-кодинг. Там ребята круглосуточно мониторят более 320 российских и зарубежных источников и публикуют только главное: релизы, тулзы, гайды, курсы и практические кейсы.

Подписывайтесь, в комьюнити уже 45 тысяч: @vibecoding_tg

#промо
3😁24021🤯16🫡10🦄9💔7👍5🔥3😱2🤩2😍1
В одном из своих интервью осенью (кстати, очень рекомендую к просмотру) Адрей Карпатый говорил, что у него сформировалось FOMO, пока он был на вольных хлебах. Поэтому он, возможно, хотел бы вернуться назад в какую-нибудь frontier лабу в ближайшее время.

Ну, и вот, он уже в Anthropic!

@ai_newz
207🦄59👍33🤯12🔥11😁5💯2❤‍🔥1💔1
Вышла Gemini 3.5 Flash

Она заметно сильнее чем Gemini 3.1 Pro, но цены за токены выросли в 3 раза, с $0.5/$3 до $1.5/$9 за миллион токенов. 3.1 Pro, для сравнения, стоит $2/$12 за миллион токенов для контекстов меньше 200к. Насколько реально выросла стоимость за задачу по сравнению с прошлой Flash мы узнаем только с тестами.

Самое главное — Google серьёзно отнёсся к проблемам в агентности и особенно прокачал модель в этом. Как пример показали как Gemini 3.5 Flash написала за 12 часов небольшую ОС, которая может запустить Doom. Pro модель существует, её обещают завезти в следующем месяце, страшно какие там заломят цены.

@ai_newz
1149🔥62🤯36👍17😁6🤩2🙏1😍1💔1
Как попасть на работу в Frontier AI Lab

Вышел хороший пост от чела из DeepMind про то, как попасть в frontier lab сегодня. Автор сейчас lead for Gemini pretraining в GDM, а до этого дропнулся с PhD и пошел в стартап Sisu, где быстро стал Head of ML.

Суть поста коротко: если хочешь попасть в топовую AI-лабу, надо прокачивать mathematical maturity, жутко потеть во время универа (причем задрачивать без использования LLM), уметь очень хорошо кодить, и делать работу на “краях” LLM-стека – снизу kernels / inference / systems / quantization, сверху agents / rigorous evals / agentic loops. Не просто “поиграться с агентами”, а делать технически строгие эксперименты и показывать вклад, который реально нужен frontier labs.

В целом всё по делу, но мне кажется, что автор упускает несколько важных вещей.

Не весь интересный frontier-level research вне топ-лаб ограничивается разработкой кернелов, low-level оптимизациями LLM и написанием агентских врапперов.

И чтобы заниматься frontier research, не обязательно идти только в большие лабы типа OpenAI, Anthropic, Meta Superintelligence Labs или GDM.

Frontier-level research можно делать и в стартапах на более ранних стадиях. И часто там у вас будет в разы больше ownership, а рост по карьере и по скиллам будет намного быстрее.

Иронично, что сам автор как раз так и сделал: дропнулся с PhD, пошел в стартап, быстро стал Head of ML – и уже после этого попал в Google, причем сразу на Staff-level позицию.

В стартапах есть куча фундаментально интересных задач, где не нужны $100M+ бюджеты. Есть задачи, для которых достаточно “двузначных миллионов”, сильной команды и правильного технического фокуса.

А в бигтехе, если ты не Director+, ты часто просто взаимозаменяемый винтик, которому дают потрогать маленькую фичу в огромной системе. Ownership минимальный, scope ограничен, выбиться на следующий уровень очень и очень трудно. Большинство людей до Staff+ никогда в жизни так и не дорастают.

Да, стартапов, где реально сильная команда и где можно делать фундаментальные вещи, не так много. Но именно в такие стартапы можно попасть на восходящей траектории карьерного роста — когда у тебя еще нет крутого track record, который нужен, чтобы хотя бы пройти скрининг в топовую большую лабу, но видно как ты резко ускоряешься. (Именно такой принцип я и применяю, когда отбираю более молодых кандидатов к себе в стартап)

И там намного больше пространства для роста. Никто не будет искусственно ограничивать тебя в scope. Всё зависит от тебя: насколько ты готов ебашить, брать ответственность и тащить сложные куски.

Кстати, раз уж заговорили про стартапы: мы в GenPeach AI всегда рады пообщаться с выдающимися кандидатами на позицию AI Research Scientist. Это как раз роль про работу над foundation models - не “AI wrappers”, а pre-train и post-train своих large-scale моделей, O(PB) данных, SOTA ресерч по кастомным архитектурам и методам контроля генерации.

@ai_newz #карьера
🔥10451👍27😁19🦄5❤‍🔥4🤯3🙏2🤩1
Cerebras запустили Kimi K2.6 на скорости в тысячу токенов в секунду

Модель на триллион параметров на такой скорости запускается впервые, перед этим самой большой модель у Cerebras была GLM 4.7 на 358B. К сожалению это пока что доступно только энтерпрайз клиентам.

Кстати компания ещё вышла на IPO на прошлой неделе, привлекла $5.5 миллиардов и теперь стоит $56 миллиардов. У них всё хорошо, жду чего-то большего чем Codex Spark из их коллаборации с OpenAI.

@ai_newz
3🤩140🔥9321👍13🤯7🦄6😱1
OpenAI пофиксили баг с кэшем в Codex

Из-за него быстро выжирались лимиты, поэтому их снова ресетнули, Anthropic тут стоит поучиться. А ещё Тибо тизерит /slow режим для Codex, что было бы очень круто для несрочных объёмных тасков.

@ai_newz
1250👍64🔥42😁4🦄4🤯2😱1
Эвалы здорового человека

Все мы знаем этот классический флоу разработки LLM-фич — "потыкал промпт, вроде работает", и радостно катим всё это дело в прод. Чтобы уйти от хаотичного тестирования к нормальным предсказуемым системам, ребята из Школы Высшей Математики проводят вебинар про простые подходы к системному улучшению AI-продуктов.

Контент выглядит как мастхэв для ML-инженеров и разработчиков. Продакты смогут наконец-то оцифровать фидбэк юзеров и превратить продуктовые гипотезы в измеримые метрики для оценки экономической эффективности фич, а техлиды поймут, как грамотно выстроить процессы вокруг всей этой AI-разработки в команде.

На стриме обещают не просто сухую методологию измерения качества ответов языковых моделей. Будет полноценное live-демо всего цикла оценки продукта в реальном времени от сбора сырых логов до настройки автоматизированных систем. Заодно разберут production-стек инструментов и дадут готовый фреймворк, который можно сразу забрать внедрять в свои коммерческие или пет-проекты.

Вещать будут весьма компетентные люди — Андрей Киселев, Head of Product в AI-компании с бэкграундом из Revolut и Яндекса, и Федор Азаров, руководящий направлением по исследованию данных в Sber CIB.

Старт 28 мая 2026 года в 19:30 по мск.

Канал ШВМ
Регистрация на вебинар

#промо
😁5629👍15🫡11💔6🤯5🦄5
Нейродайджест за неделю (#117)

Аж за 3 недели 4.05 - 24.05.

LLM
- Обновление GPT Instant 5.5 — Модель поумнела, а в ChatGPT обновили интерфейс памяти, чтобы было понятно, на что опирается ответ.
- Mythos порвал разработчиков Firefox — Модель Mythos от Anthropic за месяц нашла 271 уязвимость (включая критические), обойдя результаты людей за полтора года.
- Управление роем агентов и режим /goal — В Claude Code завезли мульти-агентный режим и слизали фичу Codex, где модель не останавливается до достижения цели.
- Бесплатные API-кредиты для сторонних приложений — Anthropic будет насыпать подписчикам токены (до $200) для использования в сторонних тулах на базе Agent SDK.
- Приговор для TurboQuant на серверах — В vLLM детально протестили квантизацию KV-кэша. Для локального инференса годится, но на серверах деквантизация роняет пропускную способность до 70%.
- Первая модель из датацентров SpaceX — Cursor выпустили Composer 2.5 на базе K2.5. Модель стала умнее, но стоимость fast-режима выросла вдвое (до уровня Sonnet).
- Gemini 3.5 Flash написала свою ОС за 12 часов — Вышла Gemini 3.5 Flash с сильным упором на агентность. Модель заметно умнее, но цены выросли в 3 раза по сравнению с прошлой версией.
- Тысяча токенов в секунду на триллионнике — Cerebras (которые только что вышли на IPO) запустили Kimi K2.6 с безумной скоростью, пока только для энтерпрайз-клиентов.
- Ремонт кэша и тизер новых фич — OpenAI пофиксили баг с выжиранием лимитов в Codex и тизерят режим /slow для объёмных несрочных задач.

Генеративные модели
- Смерть линейки Veo — Google выпустила Gemini Omni. Модель теперь сама умеет в видеогенерацию.

Прочее
- Маск и Anthropic теперь партнеры — Anthropic арендует датацентр Colossus у SpaceX. В ответ Клоду вдвое подняли лимиты для подписчиков.
- Настоящая меха за $650k — Unitree показали робота GD01 весом в полтонны. Может ходить как на двух, так и на четырёх ногах.
- Анекдот про обезьяну и скейлинг лоуз — Немного нейросетевого юмора про стажеров и автоматизацию ресёрча.
- Миграция с Zig на Rust за 10 дней — Лид-разработчик Bun полностью переписал рантайм при помощи Claude. Новая версия стабильнее и быстрее.
- Счёт за токены на $1.3 млн в месяц — Создатели OpenClaw держат сотню агентов, которые сами ревьюят PR, слушают митинги и пишут код.
- Арендовать H100 почти нереально — В мире заканчиваются GPU. Старые A100 стоят дороже, чем два года назад, а неоклауды отдают всё крупным игрокам.
- Андрей Карпатый вышел с вольных хлебов — Легендарный ресерчер поддался FOMO и официально присоединился к Anthropic.

Личное
- Голосовухи от рекрутеров в LinkedIn — Заанлочил новый уровень безумия: рекрутеры скидывают аудиосообщения, пытаясь схантить людей к нам в GenPeach AI.
- Как попасть в топовую AI-лабу или стартап — Мои мысли о карьерном пути в frontier-лабы и почему стартапы (как наш) часто дают больше ownership и пространства для быстрого роста.

> Читать дайджест #116

#дайджест
@ai_newz
151👍23🔥14💯2🫡2❤‍🔥1🙏1🦄1
Bonsai Image 4B — чудеса квантизации

Стартап PrismML, специализирующийся на экстремальном сжатии моделек, сделал квантизированную до одного бита FLUX.2 Klein 4B, вышло на удивление достойно. С таким уровнем квантизации Diffusion Transformer занимает всего лишь 930 мегабайт в 1-битном варианте и 1.2 гигабайта в тернарном варианте. Текстовый энкодер настолько же сильно ужать не удалось, поэтому весь комплект весит ~3.5 гига.

Такая квантизация позволяет запускать модель прямо в браузере и на телефонах, используя лишь 2 гигабайта оперативки. На генерацию 512x512 картинки на iPhone 17 Pro Max с такой моделью уходит 9.4 секунды при 4 шагах, что неплохо если учитывать факт офлоадинга. Ждём моделек побольше, для локального деплоймента.

Инференс в браузере
Веса

@ai_newz
2👍174🔥10044🤯22😁2🦄2🤩1
На Хабре вышел подробный разбор массивного whitepaper от Сбера «AI-Disrupt PDLC». ИИ-энтузиаст продрался через 337 тысяч знаков документа и вытащил оттуда реальную архитектуру перехода к агентной разработке, отсеяв маркетинг для C-level. Главный фокус в обзоре сделан на смене парадигмы: от написания кода к формированию намерения, где код становится лишь вторичным артефактом, а первична спецификация.

Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.

В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).

Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых больше нет дофамина от радости самостоятельного решения сложных задач, т.к. работу делают агенты.

Хабр

@ai_newz
1👍293😁10138🦄11🔥7🤯5😱2😍1💯1
Вышел Claude Opus 4.8

Модель стала заметно умнее на токен, новый low иногда обгоняет старый max. Количество токенов используемое на каждом уровне усилий увеличилось, но вместе с этим увеличили и лимиты в Claude Code.

Самое главное для меня — модель стала заметно честнее. Она меньше срезает углы, реже игнорирует проблемы и чаще будет признавать что она что-то не знает.

Цена за токен в обычном режиме осталась такой же, а fast режим сделали в три раза дешевле. А ещё обещают релиз Mythos через несколько недель для подписчиков.

Блогпост

@ai_newz
1🔥287👍6948🦄6😁3🤯1🤩1💯1
MiniMax выпустили M3

Миллион токенов контекста и мультимодальность, веса скоро можно будет скачать. Попробовать можно бесплатно в OpenCode.

Цена API — $0.6/$2.4 за миллион токенов на запросы до 512к и $1.2/$4.8 на запросы длиннее, первую неделю на запросы до 512к действует скидка 50%. Веса с пейпером обещают через 10 дней.

@ai_newz
👍115🔥37😱2613😁3❤‍🔥2😍2💯1
Хочу рассказать про моих друзей беларусов из стартапа GRAI

Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с музыкальными треками внутри приложения, например создавать ремиксы или изменять стиль мелодий. Тема интересная, так как до сих пор нет нормального социального приложения, где бы можно было угарать и креативить на базе существующих треков. В отличие от того же Suno, в GRAI заключают соглашения с музыкантами и лейблами, чтобы на легальной основе можно было делать ремиксы и не нарваться на нарушение авторских прав.

Так вот, GRAI недавно зарейзили $9M seed раунд (топ!) и сейчас хайрят Senior ML Engineer (RecSys для музыки) и Research Engineer (тренить аудио-модели), желательно с опытом в аудио генеративных моделях.

Ребята базируются в Варшаве, но готовы рассмотреть и remote. Один из фаундеров, Илья, уже делал exit - продал Vochi в Pinterest 4 года назад, что очень круто и говорит о том, что контора серьезная. Так что рекомендую!

Ну, а матерых спецов в Visual Gen AI милости просим закинуть заявку к нам в GenPeach AI 🙂

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
12118🔥37🦄20👍10😁10🤯3💔3🫡3😱2🙏2💯1