Xiaomi MiMo V2.5 вышла в опенсорс
Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста. 310B моделька ещё и мультимодальная, поддерживает изображения, аудио и видео. Модели распространяются по лицензии MIT, базовые модели тоже выложили.
Веса
@ai_newz
Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста. 310B моделька ещё и мультимодальная, поддерживает изображения, аудио и видео. Модели распространяются по лицензии MIT, базовые модели тоже выложили.
Веса
@ai_newz
🔥155👍42❤18🦄2
У Сбера вышел Kandinsky 6.0 Image Pro.
Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные вещи: как правка встраивается в сцену, сохраняются ли стиль, геометрия, лицо, фон и локальная консистентность. Именно на этом обычно сыпятся image editing модели.
По скорости тоже прирост: больше 40% к прошлой версии за счёт MoE, распараллеливания инференса и оптимизации внимания.
Самая интересная часть — Image RAG. Модель подтягивает релевантные изображения в контекст и точнее попадает в специфические штуки, которые в обычной генерации легко превращаются во «что-то примерно славянское».
Из кейсов: удаление объектов и надписей, замена предметов с сохранением стиля, стилизация с сохранением лица, реставрация архивных фото, интерьеры по плану и фасады одним промтом.
Анонс
@ai_newz
Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные вещи: как правка встраивается в сцену, сохраняются ли стиль, геометрия, лицо, фон и локальная консистентность. Именно на этом обычно сыпятся image editing модели.
По скорости тоже прирост: больше 40% к прошлой версии за счёт MoE, распараллеливания инференса и оптимизации внимания.
Самая интересная часть — Image RAG. Модель подтягивает релевантные изображения в контекст и точнее попадает в специфические штуки, которые в обычной генерации легко превращаются во «что-то примерно славянское».
Из кейсов: удаление объектов и надписей, замена предметов с сохранением стиля, стилизация с сохранением лица, реставрация архивных фото, интерьеры по плану и фасады одним промтом.
Анонс
@ai_newz
😁210❤91👍72🔥18🦄6🤯5💔2❤🔥1🙏1
Talkie — LLM застрявшая в 1930
Есть такой жанр, тренировка LLM на исторических данных. В этот раз 13B модель натренировали на 260 миллиардах токенов до 1930 года включительно, что делает это наибольшим подобным экспериментом. Дата выбрана неслучайно — всё что написано до 1930 года, в США является общественным достоянием.
Такая модель нужна для тестирования возможностей моделей предсказывать будущее и последующего развития алгоритмов. Классический гипотетический пример такого — открытие теории относительности моделью натренированной на данных до 1910. А вот для этой модели это может быть какая-то ядерная физика.
Летом команда собирается выпустить модель на уровне GPT-3. Кстати к созданию этой модели приложил руку Alec Radford, который натренировал самую первую GPT.
Поговорить с прошлым (есть очередь, может быть проще скачать веса)
Блогпост
Веса
@ai_newz
Есть такой жанр, тренировка LLM на исторических данных. В этот раз 13B модель натренировали на 260 миллиардах токенов до 1930 года включительно, что делает это наибольшим подобным экспериментом. Дата выбрана неслучайно — всё что написано до 1930 года, в США является общественным достоянием.
Такая модель нужна для тестирования возможностей моделей предсказывать будущее и последующего развития алгоритмов. Классический гипотетический пример такого — открытие теории относительности моделью натренированной на данных до 1910. А вот для этой модели это может быть какая-то ядерная физика.
Летом команда собирается выпустить модель на уровне GPT-3. Кстати к созданию этой модели приложил руку Alec Radford, который натренировал самую первую GPT.
Поговорить с прошлым (есть очередь, может быть проще скачать веса)
Блогпост
Веса
@ai_newz
❤252🔥108👍48😁12🤩6🦄4🤯1
Mistral Medium 3.5
Это мультимодальная dense модель на 128B, с контекстом на 256k. Обходит прошлые модели Mistral, но не дотягивает до самых больших открытых моделей.
Модель единственная в своей весовой категории, все конкуренты в разы больше, так что для локального деплоя может быть неплохим вариантом. Для того чтобы модель не вела себя совсем как черепашка, опубликовали ещё и голову для спекулятивного декодинга.
Просят за API этой модели $1.5/$7.5 за миллион токенов, так что смысла юзать в облаке особо нет. Лицензия открытая, но компаниям с выручкой больше $20M в месяц нужно покупать лицензию.
Веса
Блогпост
@ai_newz
Это мультимодальная dense модель на 128B, с контекстом на 256k. Обходит прошлые модели Mistral, но не дотягивает до самых больших открытых моделей.
Модель единственная в своей весовой категории, все конкуренты в разы больше, так что для локального деплоя может быть неплохим вариантом. Для того чтобы модель не вела себя совсем как черепашка, опубликовали ещё и голову для спекулятивного декодинга.
Просят за API этой модели $1.5/$7.5 за миллион токенов, так что смысла юзать в облаке особо нет. Лицензия открытая, но компаниям с выручкой больше $20M в месяц нужно покупать лицензию.
Веса
Блогпост
@ai_newz
❤64😁51👍23🔥11🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавили в Codex питомцев
И да, его можно сделать гоблином. Ну а что, после роста выручки в два раза за неделю, команде можно и подурачиться.
А из Claude Code тамагочи вырезали всего через неделю после добавления...
@ai_newz
И да, его можно сделать гоблином. Ну а что, после роста выручки в два раза за неделю, команде можно и подурачиться.
А из Claude Code тамагочи вырезали всего через неделю после добавления...
@ai_newz
1😁279❤56🔥24🦄10⚡3😍2💔2
Forwarded from Denis Sexy IT 🤖
Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё наоборот
Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата
В статье два вывода:
1. Резюме, переписанные LLM, чаще проходят автоматический отбор (☕️ )
В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще
2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм
То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика
Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель☺️
Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата
В статье два вывода:
1. Резюме, переписанные LLM, чаще проходят автоматический отбор (
В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще
2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм
То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика
Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥238😁197❤38🫡23🤯17👍6😱5💔5❤🔥3
Нейродайджест за неделю (#116)
Открытые модели
Выложили веса Xiaomi MiMo 2.5 — миллион токенов контекста, мультимодальность (даже аудио), неплохие агентские результаты.
Mistral Medium 3.5 — команда обновила существующий претрейн. Очень хорошо показывает почему большие dense модели теперь никто не тренирует.
Laguna XS.2 — неплохавя моделька от Poolside AI, на уровне Qwen 3.5 35B-A3B при схожем размере, но при этом не китайская.
Разное
GPT 5.5 появилась на кодинг арене — результаты очень хорошо показывают почему арена мусор.
OpenAI добавили в Codex питомцев — команда дурачится, а тем временем выручка Codex выросла в два раза за неделю.
Talkie — эзотерическая LLM натренированная на данных до 1930 года включительно.
> Читать дайджест #115
#дайджест
@ai_newz
Открытые модели
Выложили веса Xiaomi MiMo 2.5 — миллион токенов контекста, мультимодальность (даже аудио), неплохие агентские результаты.
Mistral Medium 3.5 — команда обновила существующий претрейн. Очень хорошо показывает почему большие dense модели теперь никто не тренирует.
Laguna XS.2 — неплохавя моделька от Poolside AI, на уровне Qwen 3.5 35B-A3B при схожем размере, но при этом не китайская.
Разное
GPT 5.5 появилась на кодинг арене — результаты очень хорошо показывают почему арена мусор.
OpenAI добавили в Codex питомцев — команда дурачится, а тем временем выручка Codex выросла в два раза за неделю.
Talkie — эзотерическая LLM натренированная на данных до 1930 года включительно.
> Читать дайджест #115
#дайджест
@ai_newz
1❤51👍26🔥11😁4
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI обновили GPT Instant до версии 5.5
Модель теперь умнее, меньше галлюцинирует и при этом выдаёт заметно более короткие ответы. Кроме этого обновили интерфейс памяти в ChatGPT — будут показывать на основе каких воспоминаний моделька ответила. Новую модель уже раскатывают на всех пользователей ChatGPT,
А вы пользуетесь не ризонерами? Если да, то для чего?
@ai_newz
Модель теперь умнее, меньше галлюцинирует и при этом выдаёт заметно более короткие ответы. Кроме этого обновили интерфейс памяти в ChatGPT — будут показывать на основе каких воспоминаний моделька ответила. Новую модель уже раскатывают на всех пользователей ChatGPT,
А вы пользуетесь не ризонерами? Если да, то для чего?
@ai_newz
❤127👍66🔥25❤🔥5😁3🦄2
Anthropic арендуют Colossus у SpaceX
Датацентр Маска на 200+ тысяч видеокарт в итоге оказался не нужен для инференса Grok. Как следствие Anthropic повышает пятичасовые лимиты для подписчиков в два раза и убрала урезанные лимиты в пиковые часы. Кроме этого в разы выросли лимиты на использование API. Ну и Anthropic выразили интерес в программе орбитальных датацентров SpaceX, так что такая кооперация у них надолго.
Интересно, а после этого разбанят ли Claude для xAI?
@ai_newz
Датацентр Маска на 200+ тысяч видеокарт в итоге оказался не нужен для инференса Grok. Как следствие Anthropic повышает пятичасовые лимиты для подписчиков в два раза и убрала урезанные лимиты в пиковые часы. Кроме этого в разы выросли лимиты на использование API. Ну и Anthropic выразили интерес в программе орбитальных датацентров SpaceX, так что такая кооперация у них надолго.
Интересно, а после этого разбанят ли Claude для xAI?
@ai_newz
4🔥340😁107❤29🤯13👍8🦄6🤩1
Mythos за месяц нашёл больше уязвимостей в Firefox чем разработчики нашли за полтора года
Причём из 271 найденной моделью уязвимости были баги позволяющие выход из песочницы, которые в комбинации с прочими багами могли бы позволить заражение от простого перехода по ссылке. Баги, разумеется, уже пофиксили в трёх последних релизах. Из хороших новостей — некоторые части браузера не так давно переписывали с упором на безопасность и в этих частях браузера уязвимостей не нашли. Анонс Anthropic подтвердился реальным использованием, кибербезопасность изменилась навсегда.
Блогпост
@ai_newz
Причём из 271 найденной моделью уязвимости были баги позволяющие выход из песочницы, которые в комбинации с прочими багами могли бы позволить заражение от простого перехода по ссылке. Баги, разумеется, уже пофиксили в трёх последних релизах. Из хороших новостей — некоторые части браузера не так давно переписывали с упором на безопасность и в этих частях браузера уязвимостей не нашли. Анонс Anthropic подтвердился реальным использованием, кибербезопасность изменилась навсегда.
Блогпост
@ai_newz
🤯394🔥159❤69😁13👍7🫡6🤩5🦄2😱1
Google тестит Gemini Omni
Похоже теперь Gemini умеет в видеогенерацию, а моделям Veo, как отдельной линейке, пришёл конец. Логичный шаг, учитывая возможность Gemini выдавать на выход как аудио так и изображения. Модель скорее всего полноценно покажут на следующей неделе, на Google I/O.
@ai_newz
Похоже теперь Gemini умеет в видеогенерацию, а моделям Veo, как отдельной линейке, пришёл конец. Логичный шаг, учитывая возможность Gemini выдавать на выход как аудио так и изображения. Модель скорее всего полноценно покажут на следующей неделе, на Google I/O.
@ai_newz
3🤯226👍96❤39🔥20😁5🤩4🦄3
Media is too big
VIEW IN TELEGRAM
Unitree показали МЕХУ
Называется GD01, весит полтонны, а цена стартует с 650 тысяч долларов. Мне особенно понравилось как робот может быть как бипедом, так и квадрипедом, жаль только что кабина пилота не поворачивается.
@ai_newz
Называется GD01, весит полтонны, а цена стартует с 650 тысяч долларов. Мне особенно понравилось как робот может быть как бипедом, так и квадрипедом, жаль только что кабина пилота не поворачивается.
@ai_newz
1🔥162😁44👍21❤9🫡6🦄3🤯2😱1🤩1
Forwarded from полторашк
приехал пхд студент из епфл в отпуск. лежит под пальмой, тут ему звонит профессор, говорит мол ахуел он, дедлайн на aaai, надо статьи писать, а не отдыхать. ну нечего делать, стажер пошел скейлинг лоуз для ллм запускать. попивает пина коладу, промптит клод, чтобы он ему график нарисовал, а рядом на ветке сидит обезьяна и постоянно за ним наблюдает. как-то раз отошел стажер, возвращается, а обезьяна уже вместо него за компом сидит и экспы на 30B модель раскатывает. и так каждый раз. стоило стажеру отойти, как обезьяна на его место садилась и статью писать начинала. посмотрел профессор на это дело и уволил пхд студента. через полгода звонит ему и говорит:
- приходи к нам обратно, нам опять стажер нужен.
- ага, не справилась обезьяна.
- нет, обезьяна уже лидом ресерча стала, опять скейлинг лоуз крутить некому
- приходи к нам обратно, нам опять стажер нужен.
- ага, не справилась обезьяна.
- нет, обезьяна уже лидом ресерча стала, опять скейлинг лоуз крутить некому
😁855❤77🔥35🤩11🦄10👍7💔4🙏3
В Claude Code завезли режим управления несколькими агентами сразу, число открытых терминалов уменьшится в разы, а разработчики оркестраторов поверх клод кода напряглись. Кроме этого команда из Anthropic под чистую слизала из Codex /goal режим — в нём модель не останавливается пока не достигнет цели.
Я не знаю кто в Антропике делает эти видео с анонсами, но они до боли хорошие
@ai_newz
Я не знаю кто в Антропике делает эти видео с анонсами, но они до боли хорошие
@ai_newz
5❤262👍77🔥50🦄8💯1
Anthropic будет давать кредиты Claude для сторонних приложений всем подписчикам
С 15 июня подписчики будут получать кредитов на сумму подписки, то есть $20, $100 или $200 в зависимости от тира подписки, причём эти кредиты никак не затронут лимиты основной подписки. Использовать их можно для приложений на основе Agent SDK, например OpenClaw или какие-то самописные тулы с использованием клода.
Вот что компьют SpaceX животворящий делает
@ai_newz
С 15 июня подписчики будут получать кредитов на сумму подписки, то есть $20, $100 или $200 в зависимости от тира подписки, причём эти кредиты никак не затронут лимиты основной подписки. Использовать их можно для приложений на основе Agent SDK, например OpenClaw или какие-то самописные тулы с использованием клода.
Вот что компьют SpaceX животворящий делает
@ai_newz
9🔥368😁87❤41👍13🦄7💔6💯2🤩1
JavaScript рантайм Bun, который в конце прошлого года купили Anthropic, переписали с языка Zig на Rust. У лид разработчика, при помощи Claude (вероятно Mythos), на это ушло десять дней с первого коммита. Структура кода осталась той же, так что по сути это тот же код просто на другом языке.
За процессом портирования было крайне интересно наблюдать — первый коммит попал на главную страницу Hacker News, в реакцию на что разработчик написал что ветка экспериментальная, а код на Rust вероятно выкинут. Но уже через пару дней Rust версия проходила 99,8% тестов Bun и на пути на помойку оказалась наоборот оригинальная версия на Zig.
Пока что переписанная версия находится в статусе Canary, но она заменит Zig версию она уже в следующем релизе. Причина миграции — нестабильность работы Bun, в том числе из-за багов с памятью. У новой версии нет регрессий по скорости работы, она наоборот даже местами быстрее.
@ai_newz
За процессом портирования было крайне интересно наблюдать — первый коммит попал на главную страницу Hacker News, в реакцию на что разработчик написал что ветка экспериментальная, а код на Rust вероятно выкинут. Но уже через пару дней Rust версия проходила 99,8% тестов Bun и на пути на помойку оказалась наоборот оригинальная версия на Zig.
Пока что переписанная версия находится в статусе Canary, но она заменит Zig версию она уже в следующем релизе. Причина миграции — нестабильность работы Bun, в том числе из-за багов с памятью. У новой версии нет регрессий по скорости работы, она наоборот даже местами быстрее.
@ai_newz
1🤯280❤85🔥59😁25👍14❤🔥2🤩2🦄2
В блоге vLLM подробно протестили TurboQuant
Пару месяцев назад нашумел пейпер годовой давности от гугла про метод квантизации kv кэша, который даже немного обвалил акции компаний производителей оперативки. Ну и тут алгоритм решили нормально так протестить — взяли 3 разные архитектуры моделей, прогнали по бенчам и замерили производительность. Результаты вышли интересные.
Оказалось что по качеству k8v4 и 4bit-nc варианты TurboQuant вполне неплохо себя ведут — почти не теряют поинтов на бенчах, при этом занимая на 15-35% меньше места чем fp8 кэш. Но как только дело доходит до трёхбитной квантизации, результаты начинают сильно проседать, особенно на бенчах требующих понимания длинного контекста.
А вот по производительности результаты не очень весёлые для TurboQuant. Размер KV кэша, по сравнению с fp8, хоть и падает, но даётся крайне большой ценой — постоянная деквантизация дропает пропускную способность от 10% аж до 70%, в зависимости от сценария. Так что это метод который применим при локальном инференсе, но на серверах про него можно забыть.
Поздравляю всех кто купил акции производителей памяти по скидке
Блогпост
@ai_newz
Пару месяцев назад нашумел пейпер годовой давности от гугла про метод квантизации kv кэша, который даже немного обвалил акции компаний производителей оперативки. Ну и тут алгоритм решили нормально так протестить — взяли 3 разные архитектуры моделей, прогнали по бенчам и замерили производительность. Результаты вышли интересные.
Оказалось что по качеству k8v4 и 4bit-nc варианты TurboQuant вполне неплохо себя ведут — почти не теряют поинтов на бенчах, при этом занимая на 15-35% меньше места чем fp8 кэш. Но как только дело доходит до трёхбитной квантизации, результаты начинают сильно проседать, особенно на бенчах требующих понимания длинного контекста.
А вот по производительности результаты не очень весёлые для TurboQuant. Размер KV кэша, по сравнению с fp8, хоть и падает, но даётся крайне большой ценой — постоянная деквантизация дропает пропускную способность от 10% аж до 70%, в зависимости от сценария. Так что это метод который применим при локальном инференсе, но на серверах про него можно забыть.
Поздравляю всех кто купил акции производителей памяти по скидке
Блогпост
@ai_newz
😁126👍40❤23🔥6🤯5💔3🤩1
Одновременно у команды из 3-6 разработчиков запущена сотня агентов, которые ревьювят все пулреквесты, коммиты и ишью, ну и конечно же пишут весь код. Агенты слушают митинги команды и начинают сразу имплементировать обсуждаемые фичи. Такая цена во многом из-за fast режима, который в 2.5x дороже обычного. Ну и разумеется за всё платит OpenAI, где работает главный разработчик.
Полное описание воркфлоу
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯462😁119🔥57❤21😱7🦄7👍6🤩5❤🔥1