эйай ньюз
93.7K subscribers
1.97K photos
1.03K videos
7 files
2.31K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Xiaomi MiMo V2.5 вышла в опенсорс

Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста. 310B моделька ещё и мультимодальная, поддерживает изображения, аудио и видео. Модели распространяются по лицензии MIT, базовые модели тоже выложили.

Веса

@ai_newz
🔥155👍4218🦄2
У Сбера вышел Kandinsky 6.0 Image Pro.

Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные вещи: как правка встраивается в сцену, сохраняются ли стиль, геометрия, лицо, фон и локальная консистентность. Именно на этом обычно сыпятся image editing модели.

По скорости тоже прирост: больше 40% к прошлой версии за счёт MoE, распараллеливания инференса и оптимизации внимания.

Самая интересная часть — Image RAG. Модель подтягивает релевантные изображения в контекст и точнее попадает в специфические штуки, которые в обычной генерации легко превращаются во «что-то примерно славянское».

Из кейсов: удаление объектов и надписей, замена предметов с сохранением стиля, стилизация с сохранением лица, реставрация архивных фото, интерьеры по плану и фасады одним промтом.

Анонс

@ai_newz
😁21091👍72🔥18🦄6🤯5💔2❤‍🔥1🙏1
Talkie — LLM застрявшая в 1930

Есть такой жанр, тренировка LLM на исторических данных. В этот раз 13B модель натренировали на 260 миллиардах токенов до 1930 года включительно, что делает это наибольшим подобным экспериментом. Дата выбрана неслучайно — всё что написано до 1930 года, в США является общественным достоянием.

Такая модель нужна для тестирования возможностей моделей предсказывать будущее и последующего развития алгоритмов. Классический гипотетический пример такого — открытие теории относительности моделью натренированной на данных до 1910. А вот для этой модели это может быть какая-то ядерная физика.

Летом команда собирается выпустить модель на уровне GPT-3. Кстати к созданию этой модели приложил руку Alec Radford, который натренировал самую первую GPT.

Поговорить с прошлым (есть очередь, может быть проще скачать веса)
Блогпост
Веса

@ai_newz
252🔥108👍48😁12🤩6🦄4🤯1
Mistral Medium 3.5

Это мультимодальная dense модель на 128B, с контекстом на 256k. Обходит прошлые модели Mistral, но не дотягивает до самых больших открытых моделей.

Модель единственная в своей весовой категории, все конкуренты в разы больше, так что для локального деплоя может быть неплохим вариантом. Для того чтобы модель не вела себя совсем как черепашка, опубликовали ещё и голову для спекулятивного декодинга.

Просят за API этой модели $1.5/$7.5 за миллион токенов, так что смысла юзать в облаке особо нет. Лицензия открытая, но компаниям с выручкой больше $20M в месяц нужно покупать лицензию.

Веса
Блогпост

@ai_newz
64😁51👍23🔥11🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавили в Codex питомцев

И да, его можно сделать гоблином. Ну а что, после роста выручки в два раза за неделю, команде можно и подурачиться.

А из Claude Code тамагочи вырезали всего через неделю после добавления...

@ai_newz
1😁27956🔥24🦄103😍2💔2
Forwarded from Denis Sexy IT 🤖
Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё наоборот

Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата

В статье два вывода:

1. Резюме, переписанные LLM, чаще проходят автоматический отбор (☕️)

В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще

2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм

То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика

Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥238😁19738🫡23🤯17👍6😱5💔5❤‍🔥3
Нейродайджест за неделю (#116)

Открытые модели
Выложили веса Xiaomi MiMo 2.5 — миллион токенов контекста, мультимодальность (даже аудио), неплохие агентские результаты.

Mistral Medium 3.5 — команда обновила существующий претрейн. Очень хорошо показывает почему большие dense модели теперь никто не тренирует.

Laguna XS.2 — неплохавя моделька от Poolside AI, на уровне Qwen 3.5 35B-A3B при схожем размере, но при этом не китайская.

Разное
GPT 5.5 появилась на кодинг арене — результаты очень хорошо показывают почему арена мусор.

OpenAI добавили в Codex питомцев — команда дурачится, а тем временем выручка Codex выросла в два раза за неделю.

Talkie — эзотерическая LLM натренированная на данных до 1930 года включительно.

> Читать дайджест #115

#дайджест
@ai_newz
151👍26🔥11😁4
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI обновили GPT Instant до версии 5.5

Модель теперь умнее, меньше галлюцинирует и при этом выдаёт заметно более короткие ответы. Кроме этого обновили интерфейс памяти в ChatGPT — будут показывать на основе каких воспоминаний моделька ответила. Новую модель уже раскатывают на всех пользователей ChatGPT,

А вы пользуетесь не ризонерами? Если да, то для чего?

@ai_newz
127👍66🔥25❤‍🔥5😁3🦄2
Anthropic арендуют Colossus у SpaceX

Датацентр Маска на 200+ тысяч видеокарт в итоге оказался не нужен для инференса Grok. Как следствие Anthropic повышает пятичасовые лимиты для подписчиков в два раза и убрала урезанные лимиты в пиковые часы. Кроме этого в разы выросли лимиты на использование API. Ну и Anthropic выразили интерес в программе орбитальных датацентров SpaceX, так что такая кооперация у них надолго.

Интересно, а после этого разбанят ли Claude для xAI?

@ai_newz
4🔥340😁10729🤯13👍8🦄6🤩1
Mythos за месяц нашёл больше уязвимостей в Firefox чем разработчики нашли за полтора года

Причём из 271 найденной моделью уязвимости были баги позволяющие выход из песочницы, которые в комбинации с прочими багами могли бы позволить заражение от простого перехода по ссылке. Баги, разумеется, уже пофиксили в трёх последних релизах. Из хороших новостей — некоторые части браузера не так давно переписывали с упором на безопасность и в этих частях браузера уязвимостей не нашли. Анонс Anthropic подтвердился реальным использованием, кибербезопасность изменилась навсегда.

Блогпост

@ai_newz
🤯394🔥15969😁13👍7🫡6🤩5🦄2😱1
Google тестит Gemini Omni

Похоже теперь Gemini умеет в видеогенерацию, а моделям Veo, как отдельной линейке, пришёл конец. Логичный шаг, учитывая возможность Gemini выдавать на выход как аудио так и изображения. Модель скорее всего полноценно покажут на следующей неделе, на Google I/O.

@ai_newz
3🤯226👍9639🔥20😁5🤩4🦄3
Media is too big
VIEW IN TELEGRAM
Unitree показали МЕХУ

Называется GD01, весит полтонны, а цена стартует с 650 тысяч долларов. Мне особенно понравилось как робот может быть как бипедом, так и квадрипедом, жаль только что кабина пилота не поворачивается.

@ai_newz
1🔥162😁44👍219🫡6🦄3🤯2😱1🤩1
Forwarded from полторашк
приехал пхд студент из епфл в отпуск. лежит под пальмой, тут ему звонит профессор, говорит мол ахуел он, дедлайн на aaai, надо статьи писать, а не отдыхать. ну нечего делать, стажер пошел скейлинг лоуз для ллм запускать. попивает пина коладу, промптит клод, чтобы он ему график нарисовал, а рядом на ветке сидит обезьяна и постоянно за ним наблюдает. как-то раз отошел стажер, возвращается, а обезьяна уже вместо него за компом сидит и экспы на 30B модель раскатывает. и так каждый раз. стоило стажеру отойти, как обезьяна на его место садилась и статью писать начинала. посмотрел профессор на это дело и уволил пхд студента. через полгода звонит ему и говорит:
- приходи к нам обратно, нам опять стажер нужен.
- ага, не справилась обезьяна.
- нет, обезьяна уже лидом ресерча стала, опять скейлинг лоуз крутить некому
😁85577🔥35🤩11🦄10👍7💔4🙏3
В Claude Code завезли режим управления несколькими агентами сразу, число открытых терминалов уменьшится в разы, а разработчики оркестраторов поверх клод кода напряглись. Кроме этого команда из Anthropic под чистую слизала из Codex /goal режим — в нём модель не останавливается пока не достигнет цели.

Я не знаю кто в Антропике делает эти видео с анонсами, но они до боли хорошие

@ai_newz
5262👍77🔥50🦄8💯1
Anthropic будет давать кредиты Claude для сторонних приложений всем подписчикам

С 15 июня подписчики будут получать кредитов на сумму подписки, то есть $20, $100 или $200 в зависимости от тира подписки, причём эти кредиты никак не затронут лимиты основной подписки. Использовать их можно для приложений на основе Agent SDK, например OpenClaw или какие-то самописные тулы с использованием клода.

Вот что компьют SpaceX животворящий делает

@ai_newz
9🔥368😁8741👍13🦄7💔6💯2🤩1
JavaScript рантайм Bun, который в конце прошлого года купили Anthropic, переписали с языка Zig на Rust. У лид разработчика, при помощи Claude (вероятно Mythos), на это ушло десять дней с первого коммита. Структура кода осталась той же, так что по сути это тот же код просто на другом языке.

За процессом портирования было крайне интересно наблюдать — первый коммит попал на главную страницу Hacker News, в реакцию на что разработчик написал что ветка экспериментальная, а код на Rust вероятно выкинут. Но уже через пару дней Rust версия проходила 99,8% тестов Bun и на пути на помойку оказалась наоборот оригинальная версия на Zig.

Пока что переписанная версия находится в статусе Canary, но она заменит Zig версию она уже в следующем релизе. Причина миграции — нестабильность работы Bun, в том числе из-за багов с памятью. У новой версии нет регрессий по скорости работы, она наоборот даже местами быстрее.

@ai_newz
1🤯28085🔥59😁25👍14❤‍🔥2🤩2🦄2
В блоге vLLM подробно протестили TurboQuant

Пару месяцев назад нашумел пейпер годовой давности от гугла про метод квантизации kv кэша, который даже немного обвалил акции компаний производителей оперативки. Ну и тут алгоритм решили нормально так протестить — взяли 3 разные архитектуры моделей, прогнали по бенчам и замерили производительность. Результаты вышли интересные.

Оказалось что по качеству k8v4 и 4bit-nc варианты TurboQuant вполне неплохо себя ведут — почти не теряют поинтов на бенчах, при этом занимая на 15-35% меньше места чем fp8 кэш. Но как только дело доходит до трёхбитной квантизации, результаты начинают сильно проседать, особенно на бенчах требующих понимания длинного контекста.

А вот по производительности результаты не очень весёлые для TurboQuant. Размер KV кэша, по сравнению с fp8, хоть и падает, но даётся крайне большой ценой — постоянная деквантизация дропает пропускную способность от 10% аж до 70%, в зависимости от сценария. Так что это метод который применим при локальном инференсе, но на серверах про него можно забыть.

Поздравляю всех кто купил акции производителей памяти по скидке

Блогпост


@ai_newz
😁126👍4023🔥6🤯5💔3🤩1
😮 Создатели OpenClaw используют токенов на 1,3 миллиона долларов в месяц

Одновременно у команды из 3-6 разработчиков запущена сотня агентов, которые ревьювят все пулреквесты, коммиты и ишью, ну и конечно же пишут весь код. Агенты слушают митинги команды и начинают сразу имплементировать обсуждаемые фичи. Такая цена во многом из-за fast режима, который в 2.5x дороже обычного. Ну и разумеется за всё платит OpenAI, где работает главный разработчик.

Полное описание воркфлоу

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯462😁119🔥5721😱7🦄7👍6🤩5❤‍🔥1