Media is too big
VIEW IN TELEGRAM
DeepMind опубликовала веса мультимодальной модели Gemma 4 12B, которая обрабатывает текст, изображения и аудио без использования отдельных энкодеров.
Отказ от внешних модулей снизил вычислительную задержку и требования к памяти. Модель работает локально на устройствах с 16 ГБ ОЗУ, показывая в бенчмарках результаты на уровне моделей класса 26B.
Веса выложены на Hugging Face, поддержка модели добавлена в Ollama и LM Studio. Лицензия Apache 2.0, допускающая коммерческое применение.
blog.google
Ideogram 4.0 получила поддержку разрешения 2K, создание прозрачного фона и позиционирование объектов через bounding boxes. Сохранен фокус на качественном рендеринге текста для логотипов и постеров.
На DesignArena, модель заняла 1 место среди открытых решений, уступив только проприетарным системам OpenAI и Google.
Код и веса опубликованы в открытом доступе. Для коммерческого применения требуется покупка платной лицензии.
Доступен API стоимостью от $0.03 до $0.10 за генерацию в зависимости от качества. Модель есть на площадках ComfyUI, Replicate и Leonardo AI.
В будущих обновлениях обещают добавить работу со слоями и редактируемый текст.
ideogram.ai
Система напрямую взаимодействует с локальными файлами, системными утилитами и десктопными приложениями Microsoft (Word, Excel, PowerPoint, Outlook).
Архитектура разбивает запросы на подзадачи и распределяет их между пулом агентов. Personal Computer сортирует директории, переносит метрики из локальных таблиц в презентации и сверяет документы с веб-выдачей.
В интеграции с браузером Comet агент управляет интерфейсами сайтов: заполняет формы, бронирует слоты в календаре и работает с корпоративными платформами. Поддерживается синхронизация - запущенную на смартфоне задачу можно продолжить на ПК. Продукт доступен по листу ожидания для подписчиков Max и Enterprise Max.
perplexity.ai
Hermes Desktop - превью-версия приложения под лицензией MIT для развертывания ИИ-агентов на Windows, macOS и Linux. Инструмент работает из терминала, электронной почты и мессенджеров.
Hermes планирует задачи на естественном языке и использует постоянную память для сохранения контекста проектов. Архитектура поддерживает делегирование: система запускает субагентов с отдельными терминалами для выполнения Python-скриптов, веб-поиска, генерации изображений и синтеза речи.
Для изоляции исполняемого кода доступны пять песочниц: локальная среда, Docker, SSH, Singularity и Modal. Обращения к LLM маршрутизируются через платформу Nous Portal, на которой есть более 300 моделей, в том числе по бесплатным тарифам.
nousresearch.com
Институт в коллаборации с IBM Research представил ChartNet - синтетический датасет из 1,5 млн диаграмм для обучения vision-моделей.
Авторы конвертировали существующие графики в исполняемый код, а затем программно модифицировали его для генерации новых примеров.
Датасет включает 24 типа диаграмм на базе 6 библиотек визуализации. Каждый сэмпл содержит сгенерированное изображение, исходный код, таблицу данных и текстовое описание.
По заявлению разработчиков, дообучение на ChartNet позволило компактным моделям превзойти более крупные проприетарные системы в профильных бенчмарках по извлечению визуальной информации.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩96❤22👍21👏21🔥19🎉11💯7
В Яндекс Музыке появилась первая функция ИИ-компаньона люмена
Пользователи могут разбудить своих ИИ-помощников в поиске стриминга, задав туда текстовый запрос, — и получить на его основе гиперконтекстную Мою волну.
Люмен переводит свободную человеческую речь в параметры для рекомендаций, а дальше алгоритмы Моей волны подбирают нужные треки.
Они учитывают предпочтения юзера и характеристики композиций из каталога, а также контекст их прослушивания: время суток, день недели и устройство, с которого пользователь слушает треки.
Похоже, в ИИ-ассистентах все больше ценится именно отзывчивость. По словам разработчиков, люмен со временем начинает лучше понимать юзера, укрепляя эмоциональную связь между слушателем и площадкой.
@ai_machinelearning_big_data
Пользователи могут разбудить своих ИИ-помощников в поиске стриминга, задав туда текстовый запрос, — и получить на его основе гиперконтекстную Мою волну.
Люмен переводит свободную человеческую речь в параметры для рекомендаций, а дальше алгоритмы Моей волны подбирают нужные треки.
Они учитывают предпочтения юзера и характеристики композиций из каталога, а также контекст их прослушивания: время суток, день недели и устройство, с которого пользователь слушает треки.
Похоже, в ИИ-ассистентах все больше ценится именно отзывчивость. По словам разработчиков, люмен со временем начинает лучше понимать юзера, укрепляя эмоциональную связь между слушателем и площадкой.
@ai_machinelearning_big_data
👍77🤣55❤22🎉14👀5🙈4🌚2🤷♂1😈1💘1
Китайская компания проводит первый в своей истории раунд привлечения внешнего капитала около 50 млрд юаней ($7,4 млрд).
По данным агентства Reuters, после вложений компанию оценят в 350–400 млрд юаней ($52–59 млрд).
Крупнейшими внешними инвесторами могут стать интернет-холдинг Tencent и производитель аккумуляторов CATL: первый рассматривает вложение 10 млрд юаней, второй - 5 млрд.
Основатель DeepSeek Liang Wenfeng, по словам источников, внесёт 20 млрд юаней собственных средств (это самый крупный частный взнос в раунде).
Переговоры также ведутся с государственным фондом поддержки ИИ КНР, а также с NetEase и JD.com. Общее число инвесторов, как ожидается, не превысит десяти. Среди возможных участников называют гонконгские IDG Capital и Monolith Management.
На фоне западных сделок раунд выглядит скромно: Anthropic в прошлом месяце привлёк $65 млрд, OpenAI в марте - $122 млрд.
О планах выхода на биржу DeepSeek пока не заявлял.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍93❤41👏16🤔10🔥9🎉9💘2
NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) - свою самую сильную open-weight модель на сегодня, причём вместе с полной схемой обучения.
Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.
Открыли почти всё:
• base-модель
• post-trained версии
• reward checkpoints
• NVFP4-квантованные версии
• тренировочные данные
• рецепты обучения
Технически внутри тоже интересно:
• 550B параметров всего, 55B активных
• гибридная архитектура Mamba2 + Transformer
• примерно 4:1 в пользу Mamba относительно Attention
• претрейн в NVFP4 на 20T токенов
• LatentMoE-архитектура
• двухэтапный MOPD post-training
• нативная поддержка MTP
🤗BF16 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16
🤗NVFP4 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
📜Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf
@ai_machinelearning_big_data
Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.
Открыли почти всё:
• base-модель
• post-trained версии
• reward checkpoints
• NVFP4-квантованные версии
• тренировочные данные
• рецепты обучения
Технически внутри тоже интересно:
• 550B параметров всего, 55B активных
• гибридная архитектура Mamba2 + Transformer
• примерно 4:1 в пользу Mamba относительно Attention
• претрейн в NVFP4 на 20T токенов
• LatentMoE-архитектура
• двухэтапный MOPD post-training
• нативная поддержка MTP
🤗BF16 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16
🤗NVFP4 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
📜Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf
@ai_machinelearning_big_data
👍77❤63🔥34🌚3😈3🤔1💘1
Media is too big
VIEW IN TELEGRAM
OpenAI начала развертывание автоматической фоновой памяти для ChatGPT в США на тарифах Plus и Pro. В основе системы лежит механизм фоновой организации данных Dreaming.
Модель самостоятельно извлекает контекст, детали рабочих проектов и предпочтения из множества сессий без прямых команд на запоминание. Главное отличие новой архитектуры - динамическое обновление фактов.
Алгоритм актуализирует информацию со временем, понижая значимость устаревших данных. Прежняя реализация памяти полагалась на статичные факты, требовавшие ручного управления.
В ближайшие недели OpenAI расширит географию доступа и откроет функцию для пользователей бесплатных аккаунтов.
openai.com
Компания выпустила превью-версию модели Grok Imagine Video 1.5 для генерации 720p-видео по картинке. Релиз позиционируется как конкурент Seedance и Google Veo.
Модель анимирует изображение по текстовым промптам: задается направление движения камеры, динамика и атмосфера сцены. Алгоритм сохраняет оригинальную детализацию и схему освещения исходника.
Также поддерживается склейка нескольких планов в длинные ролики с сохранением визуальной консистентности. Доступ к новинке открыт через API.
x.ai
Сделка оценивается в 400 млн долларов. Наработки Kumo интегрируют в платформу Nvidia AI Foundry, где корпоративные клиенты смогут обучать кастомные модели на внутренних реляционных базах.
Стек Kumo адаптирован для анализа сложных структур из множества связанных таблиц, которые тяжело обрабатывать классическими LLM. Алгоритмы комбинируют графовое машинное обучение и генерацию синтетических данных. Платформа решает задачи предиктивной аналитики: от прогнозирования оттока пользователей до оценки вероятности финансовых дефолтов.
В рамках сделки в Nvidia перейдет команда стартапа. Среди действующих клиентов Kumo - DoorDash, Reddit, Databricks и Snowflake. Актуальная модель стартапа вышла в апреле этого года.
theinformation.com
Reve представила новый генератор картинок на архитектуре Large Layout Model. Система отходит от классической генерации по тексту и работает через макеты: каждый визуальный элемент получает точные координаты, размер и описание.
Модель прошла дополнительный пространственный претрейн на базе Qwen. Изображение представляется как код, что позволяет управлять результатом через промпт или точечно редактировать JSON-структуру макета.
По заявлению авторов, на обучение ушло в 10 раз меньше вычислительных мощностей по сравнению с корпоративными аналогами. Модель занимает вторую строчку в бенчмарке Text-to-Image ArenaAi, обходя Nano Banana 2 и GPT-Image-1.5.
blog.reve.com
По данным Cloudflare, доля машинного веб-трафика достигла 57,5%, превысив активность людей (42,5%). По словам гендиректора компании Мэттью Принса, рубеж пройден на несколько лет раньше прогнозируемого 2027 года.
Рост обусловлен не классическими скриптами (краулеры, спам, DDoS-сети), а автономными ИИ-агентами. Алгоритмы парсят контент для обучения нейросетей и выполняют многошаговые задачи от лица пользователей: мониторят цены, взаимодействуют со службами поддержки и оформляют заказы.
Cloudflare классифицирует трафик верифицированных ботов и ИИ-агентов отдельно с прошлого года. Точную дату превышения машинного трафика над человеческим определить сложно из-за специфики метрик.
CEO CloudFlare в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤46👍20🥰7🔥2👏1😢1🤣1🙈1
Anthropic опубликовала аналитический материал, в котором утверждает, что системы искусственного интеллекта всё активнее участвуют в создании следующих поколений ИИ.
Материал подготовлен исследовательским подразделением Anthropic Institute. Его авторы - Марина Фаваро и сооснователь компании, глава отдела политики Джек Кларк.
Отрасль приближается к рекурсивному самоулучшению
Это состояние, когда ИИ способен самостоятельно проектировать и совершенствовать собственного преемника быстрее, чем к этому будут готовы правительства и институты.
При этом Anthropic оговаривается, что до полностью автономной разработки ещё далеко и что такой сценарий не является неизбежным, люди по-прежнему нужны. Они ставят цели, оценивают результаты и решают, какие направления важны.
На май 2026 года Claude написал более 80% кода, добавляемого в кодовую базу Anthropic.
До запуска Claude Code этот показатель измерялся единицами процентов.
Во втором квартале 2026 года типичный инженер вносил в проекты примерно в 8 раз больше кода в день, чем в 2024-м.
Время выполнения задач, которые модели способны надёжно решать без участия человека, удваивается примерно каждые 4 месяца.
В начале 2024 года Opus 3 справлялся с задачами длиной в несколько минут, годом позже Sonnet 3.7 примерно за полтора часа, а Opus 4.6 - до 12 часов.
На SWE-bench, проверяющем исправление реальных ошибок в коде, передовые модели за два года прошли путь от низких результатов до почти предельных.
Джек Кларк говорит, что компания хочет, чтобы законодатели и институты понимали, что может произойти дальше.
По его словам, цель Anthropic - "заранее обозначить концепцию и дать людям представление о том, что приближается".
Прогресс ИИ, по его оценке, скорее ускоряется, чем замедляется, и может принести значительные результаты в медицине и науке, но требует инструментов для проверки и подтверждения работы, выполненной ИИ.
Anthropic выступает за то, чтобы у мира оставалась возможность при необходимости замедлить или временно приостановить разработку передовых моделей, но понимает, что это потребует согласованных всех игроков индустрии в разных странах и механизмов взаимной проверки.
В ближайшие месяцы компания обсудит эти вопросы с законодателями, исследователями и другими участниками отрасли.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔116❤76👍37👌15🔥14👏8😁6🤩4🤝4👨💻2🥰1
Крёстная мать ИИ и сооснователь World Labs вместе с командой опубликовала эссе, продолжающее её более ранний текст о пространственном интеллекте.
На этот раз авторы пытаются навести порядок в одном из самых перегруженных терминов индустрии - "модели мира".
LLM прекрасно овладели понятиями, лексикой и рассуждением, но они изучают статистическую структуру текста.
Модель мира должна изучать совокупность пространства и времени - как свет падает на поверхность, как предметы реагируют на силу, как всё это подчиняется законам физики.
Проблема в том, что термином "модель мира" пользуются CV, робототехника, RL и генеративный ИИ, каждый вкладывая в него своё.
Чтобы развести значения, Ли предлагает опираться на классическую схему из учебников по RL: цикл "агент-действие-состояние-наблюдение".
Формально - частично наблюдаемый марковский процесс принятия решений.
Разные системы, которые сегодня называют моделями мира, авторы предлагают рассматривать как разные проекции этого одного цикла.
Рендерер выдаёт наблюдения в виде пикселей, и главное для него - визуальная достоверность (3D структуры он по-настоящему не понимает).
Симулятор выдаёт состояние (геометрически и физически корректное описание мира, на котором могут работать и люди, и алгоритмы).
Планировщик по наблюдению и цели выдаёт действие, замыкая петлю "восприятие -действие".
Из 3-х категорий именно симулятор привлекает меньше всего внимания публики, но он самый значимый.
Рендереры коммерчески наиболее развиты (Google Nano Banana и другие генераторы), но оптимизированы под правдоподобную картинку, а не под физику - красивый кадр нельзя использовать, чтобы спроектировать здание или обучить робота.
Планировщики, наоборот, самые перспективные и самые сырые. Робототехнические демо последних лет почти всегда ограничены лабораторными условиями и далеки от реалий в реальном мире.
Симулятор описан как мост между ними и структурный каркас, из которого выводятся и внешний вид (для рендерера), и последствия действий (для планировщика).
Логическим итогом Ли называет одну базовую модель, которая в зависимости от запроса переключается между режимами: рендерит, симулирует или планирует.
В качестве первого шага в эту сторону Ли считает платформу Marble (разработка World Labs), которая генерирует 3D-сцены и выдает в рамках одной модели и гауссовы сплаты для визуального осмотра, и коллизионные сетки, с которыми может работать физический движок.
#AI #ML #WorldModels #WorldLabs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤔64❤38👏23👍13🤓5👨💻4🔥2😁1🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
АНБ США начало применять модель Mythos для взлома зарубежных сетей, предположительно в Китае и Иране. Для адаптации системы под задачи спецслужбы Anthropic направила в агентство команду из 6 инженеров.
Сотрудничество с АНБ стало исключением на фоне конфликта стартапа с Пентагоном. В правилах безопасности Anthropic жесткие ограничения на военное использование ИИ касаются слежки за гражданами США, но формально оставляют спецслужбам свободу действий в операциях против зарубежных целей.
Степень вовлеченности разработчиков Anthropic в активные фазы атак не раскрывается.
ft.com
В 83-страничном документе прокуратура штата требует признать ChatGPT дефектным товаром и общественной угрозой из-за выдачи опасного контента несовершеннолетним.
Часть обвинений строится на внутренних утечках. По версии властей, Альтман намеренно сократил сроки тестирования безопасности GPT-4o перед релизом. Утверждается, что на выявление рисков OpenAI выделила 1–2% вычислительных мощностей вместо публично обещанных 20%.
Дополнительные претензии касаются приватности. В иске указано, что в бесплатной версии ChatGPT нет верификации возраста, а сбор пользовательских данных начинается до принятия Terms of Service.
myfloridalegal.com
Обновлённый клиент для iPhone и iPad объединил локальный инференс на смартфоне и удаленный доступ к десктопным моделям.
Офлайн-режим построен на фреймворке Apple MLX и оптимизирован под чипы Apple Silicon. Приложение поддерживает загрузку весов в формате GGUF.
Запуск тяжелых моделей стал возможен благодаря функции LM Link. Она направляет запросы к десктопному хосту LM Studio через mesh-сеть на базе Tailscale. Интеграция обеспечивает сквозное шифрование трафика без проброса портов в интернет.
lmstudio.ai
Университет завершил первую фазу клинических испытаний pEVAC-PS, вакцины против коронавирусов, архитектуру которой спроектировала ИИ-модель. Препарат подтвердил безопасность и вызвал перекрестный иммунный ответ к нескольким видам вирусов у 39 добровольцев.
Модель обучали на генетических данных сарбековирусов, включая SARS-CoV-2 и вирус атипичной пневмонии. Алгоритм вычислил общую для родственных патогенов мишень, уязвимую для человеческих антител.
Клиническую эффективность pEVAC-PS проверят на втором этапе исследований. Технологию планируют применять для разработки вакцин против гриппа и вируса Эбола. Для коммерциализации платформы команда Кембриджа основала компанию DIOSynVax.
cam.ac.uk
По данным опроса Bain & Company среди 951 компании, постоянное вмешательство людей в работу алгоритмов снижает финансовую отдачу от внедрения ИИ. Почти 40% корпораций сократили издержки менее чем на 10%, не достигнув целевых показателей в 11–20%.
Лишь 7% респондентов используют полностью автономных агентов. В 38% случаев системы требуют обязательного подтверждения каждого действия со стороны человека. Это ломает исходные бизнес-кейсы, рассчитанные на автоматизации.
Вторым барьером для интеграции моделей 41% опрошенных назвали проблемы с доступом к корпоративным данным. Несмотря на отставание от финансовых планов, 90% компаний намерены наращивать инвестиции в ИИ.
bain.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🤔53🤨26❤25🤬10🔥7😐5👌1💘1
Архитектура рассчитана на локальный запуск ИИ-моделей размером до 120 млрд параметров.
В основе - 20-ядерный CPU линейки Grace и графическое ядро Blackwell с 6144 ядрами CUDA. Компоненты соединены шиной NVLink и используют до 128 ГБ объединенной памяти LPDDR5X.
При теплопакете 80 Вт мощность видеоядра сопоставима с мобильной GeForce RTX 5070. Чип поддерживает DLSS 4.5.
Ноутбуки на базе RTX Spark поступят в продажу осенью по цене от 2700 евро.
Для корпоративной разработки Nvidia готовит рабочую станцию DGX Station for Windows на базе GB300 Grace Blackwell Ultra с 750 ГБ памяти.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡79👍69🤔30🔥16👏14🥱7❤5😍4