Метаверсище и ИИще

0:06

0:06

0:54

0:04

0:12

0:14

Alibaba: выпустили видеомодель Wan 2.2 14B Animate для переложения анимации на персонажей или их удаления из кадра. Передаются тонкие движения мимики и даже пальцев.

Есть два подхода:

* Режим анимации — создаёт анимированное видео с персонажем на основе предоставленной картинки и видоса с нужным движением

* Режим замещения — удаляет персонажа из кадра и заменяет его на того, что в картинке, гармонично вписывая его в окружение с пересчётом освещения

Comfy уже наваяли веса, а Kijai воркфлоу и GGUF для тех у кого мало VRAM. Я погонял на 4090 + 128 ГБ RAM, и вкратце сколько бы у вас их ни было оно захочет всё, что у вас есть. На дефолтных настройках, с блоксвапом при отключенном Torch Compile, видео разрешением 832х480x16 fps 49 кадров генерилось 5 минут. При этом все 24ГБ VRAM заняты и в RAM выгружаются ~60 ГБ. Итоговый результат третье видео, где уши кота прижаты, и конечности целиком не видны в кадре.

Поставил 1280х720р ради интереса. Тут генка уже заняла 2 часа по сути на CPU. Сам RAM доходил до 130 ГБ. Думается комфи обнову скоро выпустят, чтобы утихомирить потребление оперативы. Но зато экспрессия актёра передана чётче и уже пальцы видны, которые двигаются в такт с ним (второе видео). Уши правда куда-то делись, но это думается надо с параметрами поиграться и контентом.

Pika пика? Мы несколько месяцев назад удивлялись тому, как у них ловко получается заменить человека в кадре, а сейчас эти инструменты рисовой братвой активно опускаются на людской уровень. Будем наблюдать за приёмом модели сообществом. Особенно интересно увидеть работы в мультипликации.

Демо (хаггинг)
Демо (modelscope)
Анонс
Хаггинг (Comfy)
Хаггинг (Wan)
Хаггинг GGUF (Kijai)
Comfy воркфлоу
Гитхаб

🔥50❤13👍8😁1😱1

8.81K viewsSergey Tsyptsyn ️️, 19:15

Понедельник начнем с оффтопа.

Вчера вышла первая серия четвертого сезона "Утреннего шоу" с Дженнифер Энистон и Риз Уизерспун.

И первая же открывающая сцена - это репортаж Алекс из Парижа(Олимпиада) с ИИ-дубляжом на многие языки. Липсинк на месте, все ок.
И первая же реплика из просмотрового зала: "А что ИИ нас теперь всех заменит?"

Сериал всегда было интересно смотреть, они срисовывали из реальной жизни прям вот последние события. Один ковид в первом сезон чего стоил.

Только Маском неловко получилось в третьем сезоне.

@cgevent

❤19😁12👍7

7.26K viewsSergey Tsyptsyn ️️, edited 10:04

Forwarded from Дмитрий Тихонов 🍌

Хиггсфилд всегда умели и могли во всякие виральные штучки. Вот и новый "продукт" от них, называется Photodump. Фотодамп это когда вы выкладываете в соцсеть плитку-подборку из зачастую необработанных фоток, демонстрируя миру свой отпуск или настроение. Трендовая штука, а Хиггс любят тренды, потому что их любите вы. А если вы их любите, значит захотите:)

Photodump использует модель Soul от Higgsfield (что там под капотом, непонятно). 26 фоток на выходе, все по одному пресету на мужчин и женщин:) По сути это типа НЕЙРОФОТОСЕТ) Как игрушка на один раз - сойдёт. У Ранвея давно есть нечто похожее (RUNWAY Gen 4 Presets) - Так, поугарать на разок

👍19👎10❤5

7.07K viewsSergey Tsyptsyn ️️, 10:14

Зазвук

Тут в коментах родилась обратная метрика.

Если в видеогенераторы мы оценивали в Вилах Смитах, то кожаную музику можно оценивать в Сунах.
Разброс от "наизи", до "если повозиться, то можно сделать в Суно" и, наконец, "не, Суно в такое не может"

Я вот послушал сдуру радио в машине и у меня 90% "наизи".

Но вернемся у ИИ-музике.
Тут прислали новый разделитель на треки(стемы):
https://audiio.com/elements-pro
Судя по сайту, шрифтам и подаче, это кот в мешке - вам сразу предлагают купить за 100 баксов подписку Про, где эти Элементы встроены.
А еще они смешные: мы, говорят, партнеримся с AudioShake, поэтому на нашем сайте партнеры AaudioShake.

Из старых добрых разделителей есть: https://www.lalal.ai/

Но есть и новый игрок:
MVSEP - выполняет разделение звука на голосовой и отдельные музыкальные треки

Внутри модель на базе архитектуры BS Roformer, которая разделяет треки на 6 дорожек: бас, барабаны, гитара, пианино, вокал, остальное)

Внутри зачем-то есть алгоритм генерации аудио по текстовым подсказкам Stable Audio Open Gen (да, от Стабилити), также, есть модель Parakeet от NVIDIA для задачи распознания речи, Matchering (by sergree) - в общем странный комбайн.

Плюс в том, что можно сразу проверить разделение на треки вот тут:

https://mvsep.com/ru/home

Есть гуманный бесплатный тариф.

Го пробовать

@cgevent

❤15👍6

6.86K viewsSergey Tsyptsyn ️️, 10:50

0:08

0:32

VEED Fabric 1.0

Еще один аватарогенератор - создатель говорящих голов (причем не только для людей).

С очень агрессивной ценовой политикой и кампанией:
VEED Fabric 1.0 → 3 minutes
(it's also 50x cheaper than VEO3)

Хотя они же пишут вот так:
Create 1-minute-long videos
• 60x cheaper
• 7x faster

Но не говорят, по сравнению с чем дешевле(теперь знаем, что с Вео) и быстрее.

Да, есть бесплатный тариф, два text2video видоса в 720p в день.

Работает с мультяшными персонажами и даже с животными.

https://www.veed.io/ai/fabric-1-0

@cgevent

👍19❤5🔥3

7.29K viewsSergey Tsyptsyn ️️, 11:03

0:50

0:04

0:31

Про Мешкапад я неоднократно писал.

Это как бы нейромокап с телефона или камеры.
Теперь они вструмили внутрь Cameta Tracker - то есть вам отдается на только движение персонажа в виде костей, но и траектория камеры (glb файл).

И получилось у них сильно наряднее, чем у Kinetix, про которых писал недавно.

Пока доступно только для multi-person extraction, но обещают сделать и для захвата одного персонажа.

https://me.meshcapade.com/vault
@cgevent

👍14❤6😱4🔥2

6.53K viewsSergey Tsyptsyn ️️, 11:24

#Нейропрожарка

Мне нравятся истории вокруг работ. Нейропрожарка начинает жить своей жизнью, вовлекаясь в какие-то истории из жизни авторов.

На сей раз смотрим на альтернативу съемкам от Апполинарии:

580₽, болото и нейросети — рецепт моего первого клипа)

🌿 История ролика началась с того, что я решила… воспроизвести картину Офелия, где она плывет в окружении цветов.
Платье есть, настроение драматичное тоже, осталось найти болото для съемки.

Нашла фотографа и заросшее озеро.
Залезла и поняла: романтика романтикой, а глинистое дно и запах болота в реальности не такие уж поэтичные.

Видео никакое снимать там не захотелось. Ограничились фотосессией!

А дальше «вмешался» ИИ. Подруга написала про меня стихи → мы превратили их в песню через нейросеть SUNO → и я решила оживить фотографии.

Сначала пробовала через телеграм-бота на основе VEO, первые две генерации отлично, остальное все получилось ужасно! (580 ₽ ушли на эксперимент ради любопытства).

И тут вижу новость: Hailuo, 7 дней бесплатно. Всё, судьба!

Начала подбирать начальные и конечные кадры. Фото выбирала подходящие по цветовому оттенку и где при генерации получался плавный и логичный переход движений.

Нагенерировала чуть больше 30 анимаций, без промтов - смотрела что он сам предложит.

И один кадр, который я собрала платно через телеграм-бот на основе Veo.

Итого часа 4 на генерации и часа 1,5 на монтаж в CapCut.

Так родился мой первый клип, в котором нет ни одного снятого видео. Все переходы и оживления — дело рук Hailuo.
@polino4ka_p автор цифрового контента

@cgevent

👎42🔥33👍11❤6😁2

6.35K viewsSergey Tsyptsyn ️️, edited 11:51

Рендер или видео

Понятно, что исторически название этих постов останется для обсуждения того, как робаты стремительно совершенствуются.

Это теперь всегда видео, причем оно НЕ ускорено ни разу.

Какие злые лица у кожаных, мне вот честно хотелось, чтобы малыш встал и элегантным уширо маваши гери дал в челюсть злому толстяку.
Представляете, что было бы, если бы мелкий попал ХОТЯ БЫ ОДИН раз?
Там скорость движения "ноги" такая, что кожаным и не снилась.

Посмотрите до конца, там где робат крутит сальто.

В общем зря они такие видосы записывают. ИИ же все помнит. Потом поздно будет плакать "это не я был".

@cgevent

😁33😱16🔥12❤7👍2

7.65K viewsSergey Tsyptsyn ️️, 12:14

OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems

Нвидия вонзает в OpenAI 100 МИЛЛИАРДОВ долларов.
Это превентивная мера? Чтобы не баловались своими чипами?

Неделей раньше Нвидия вонзила 5 миллиардов (всего-то) в акции Интел. Они объявили о совместной разработке «Intel x86 RTX SOC» для PC с графикой Nvidia (привет Эппле), а также о создании специальных процессоров Nvidia x86 для центров обработки данных.

А ведь когда-то Intel рассматривал покупку Nvidia за 20 миллиардов целиком, но почему-то решил делать собственную графику.

Куда катится мир...

https://openai.com/index/openai-nvidia-systems-partnership/

@cgevent

OpenAI

OpenAI and NVIDIA announce a strategic partnership to deploy 10 gigawatts of AI datacenters powered by NVIDIA systems, with the first phase launching in 2026.

1😱33😁8❤6🔥6👍1

8.29K viewsSergey Tsyptsyn ️️, 17:13

0:42

Оппа, Нанабанана покусала Recraft

В него завозят Chat Mode - теперь вы можете разговаривать с самим собой и со своими картинками подобно Нанабанане. В чате.

К сожалению, попробовать пока нельзя, но можно записаться в бету: https://www.recraft.ai/chat-beta#submit

Я смотрю, что все постепенно переобуваются в мультимодальные разговоры с картинками.

Первым был chatGPT Image
Потом Flux Kontext
Затем Qwen Edit
Потом Нанабанана
Иже с ними Seedream 4
Также Reve обновленный
И вот теперь Рекрафтищще

Кого забыл?

@cgevent

❤22👍12👎1

8.53K viewsSergey Tsyptsyn ️️, 17:22

Следим за Qwen, у них много апдейтов.

И все опенсорсное.

Qwen-3-Omni
https://github.com/QwenLM/Qwen3-Omni
Первая во истину омнимодальная end-to-end модель. end-to-end означает, что текст, изображения, аудио и видео принимаются на вход напрямую и обрабатываются без конвертации друг в друга, например audio-to-text? а потом text-to-llm.
119 языков, есть русский
задержка 211 ms
на вход можно аудио до 30(!) минут.
есть tool calling

Три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner

И уже можно пробовать:
https://chat.qwen.ai/?models=qwen3-omni-flash
Есть демо: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

Обновился Qwen-Image-Edit-2509
https://github.com/QwenLM/Qwen-Image
больше изображений на входе
как бы лучше держит исходник и точность выше
ControlNet для поз

Отдельно обновили Qwen3-TTS-Flash
https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
14 голосов
10 языков (есть русский)
задержка 37(!) ms

Ждем, чем ответит Deepseek 4

@cgevent

🔥42👍13❤6

9.21K viewsSergey Tsyptsyn ️️, 11:34

1:21

Мир Дикого Запада уже здесь

Я вот тут пощу разные видео, где кожаные бьют ногами маленьких, но удаленьких робатов.
Как правило, у этих робатов на голове либо массивный обруч либо круглая болванка.

А вот если бы у них были выразительные эмоциональны лица, но не каждый бы поднял ногу на малыша.

Китайцы, тем временем, разрабатывают именно лица для братьев наших меньших(пока).

Компания AheadForm из Ханчжоу занимается не только созданием эмоциональных гуманоидных роботов, но и копий людей будущего.

В сотрудничестве с художниками они создают красивые образы, основанные на системе CharacterMind, которая наделяет роботов «эмоциями». Сейчас у них в разработке "эльфы"

Система понимает тон, выражения и жесты, а затем реагирует голосом, мимикой, зрительным контактом и языком тела, благодаря чему взаимодействие с роботом похоже на общение с реальным человеком.

Короче, язык тела для робатов, включая мимику.

Досмотрите до конца, на крупных планах иногда кажется, что это 3Д из Метаверсика.

Вы бы стали мочить такого ногами?

Я зашел на их сайт и был явно убежден, что это 3Д-рендер.

https://www.aheadform.com/

Ан нет.

Вот вам еще для хорошего сна:
https://www.youtube.com/watch?v=9vQ_DtKxvug

@cgevent

👍35🔥25❤9😱6

8.32K viewsSergey Tsyptsyn ️️, edited 11:49

0:37

Кому генерацию 3Д-кадовских моделей по чертежам и промптам?

забирайте тут:

https://www.spectrallabs.ai/research/SGS-1

@cgevent

🔥30👍11❤1

8.18K viewsSergey Tsyptsyn ️️, 12:21