Метаверсище и ИИще
50.9K subscribers
6.37K photos
5.08K videos
48 files
7.38K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Psy Eyes
Alibaba: выпустили видеомодель Wan 2.2 14B Animate для переложения анимации на персонажей или их удаления из кадра. Передаются тонкие движения мимики и даже пальцев.

Есть два подхода:

* Режим анимации — создаёт анимированное видео с персонажем на основе предоставленной картинки и видоса с нужным движением

* Режим замещения — удаляет персонажа из кадра и заменяет его на того, что в картинке, гармонично вписывая его в окружение с пересчётом освещения

Comfy уже наваяли веса, а Kijai воркфлоу и GGUF для тех у кого мало VRAM. Я погонял на 4090 + 128 ГБ RAM, и вкратце сколько бы у вас их ни было оно захочет всё, что у вас есть. На дефолтных настройках, с блоксвапом при отключенном Torch Compile, видео разрешением 832х480x16 fps 49 кадров генерилось 5 минут. При этом все 24ГБ VRAM заняты и в RAM выгружаются ~60 ГБ. Итоговый результат третье видео, где уши кота прижаты, и конечности целиком не видны в кадре.

Поставил 1280х720р ради интереса. Тут генка уже заняла 2 часа по сути на CPU. Сам RAM доходил до 130 ГБ. Думается комфи обнову скоро выпустят, чтобы утихомирить потребление оперативы. Но зато экспрессия актёра передана чётче и уже пальцы видны, которые двигаются в такт с ним (второе видео). Уши правда куда-то делись, но это думается надо с параметрами поиграться и контентом.

Pika пика? Мы несколько месяцев назад удивлялись тому, как у них ловко получается заменить человека в кадре, а сейчас эти инструменты рисовой братвой активно опускаются на людской уровень. Будем наблюдать за приёмом модели сообществом. Особенно интересно увидеть работы в мультипликации.

Демо (хаггинг)
Демо (modelscope)
Анонс
Хаггинг (Comfy)
Хаггинг (Wan)
Хаггинг GGUF (Kijai)
Comfy воркфлоу
Гитхаб
🔥5013👍8😁1😱1
Понедельник начнем с оффтопа.

Вчера вышла первая серия четвертого сезона "Утреннего шоу" с Дженнифер Энистон и Риз Уизерспун.

И первая же открывающая сцена - это репортаж Алекс из Парижа(Олимпиада) с ИИ-дубляжом на многие языки. Липсинк на месте, все ок.
И первая же реплика из просмотрового зала: "А что ИИ нас теперь всех заменит?"

Сериал всегда было интересно смотреть, они срисовывали из реальной жизни прям вот последние события. Один ковид в первом сезон чего стоил.

Только Маском неловко получилось в третьем сезоне.

@cgevent
19😁12👍7
Forwarded from Дмитрий Тихонов 🍌
Хиггсфилд всегда умели и могли во всякие виральные штучки. Вот и новый "продукт" от них, называется Photodump. Фотодамп это когда вы выкладываете в соцсеть плитку-подборку из зачастую необработанных фоток, демонстрируя миру свой отпуск или настроение. Трендовая штука, а Хиггс любят тренды, потому что их любите вы. А если вы их любите, значит захотите:)

Photodump использует модель Soul от Higgsfield (что там под капотом, непонятно). 26 фоток на выходе, все по одному пресету на мужчин и женщин:) По сути это типа НЕЙРОФОТОСЕТ) Как игрушка на один раз - сойдёт. У Ранвея давно есть нечто похожее (RUNWAY Gen 4 Presets) - Так, поугарать на разок
👍19👎105
Зазвук

Тут в коментах родилась обратная метрика.

Если в видеогенераторы мы оценивали в Вилах Смитах, то кожаную музику можно оценивать в Сунах.
Разброс от "наизи", до "если повозиться, то можно сделать в Суно" и, наконец, "не, Суно в такое не может"

Я вот послушал сдуру радио в машине и у меня 90% "наизи".

Но вернемся у ИИ-музике.
Тут прислали новый разделитель на треки(стемы):
https://audiio.com/elements-pro
Судя по сайту, шрифтам и подаче, это кот в мешке - вам сразу предлагают купить за 100 баксов подписку Про, где эти Элементы встроены.
А еще они смешные: мы, говорят, партнеримся с AudioShake, поэтому на нашем сайте партнеры AaudioShake.

Из старых добрых разделителей есть: https://www.lalal.ai/

Но есть и новый игрок:
MVSEP - выполняет разделение звука на голосовой и отдельные музыкальные треки

Внутри модель на базе архитектуры BS Roformer, которая разделяет треки на 6 дорожек: бас, барабаны, гитара, пианино, вокал, остальное)

Внутри зачем-то есть алгоритм генерации аудио по текстовым подсказкам Stable Audio Open Gen (да, от Стабилити), также, есть модель Parakeet от NVIDIA для задачи распознания речи, Matchering (by sergree) - в общем странный комбайн.

Плюс в том, что можно сразу проверить разделение на треки вот тут:

https://mvsep.com/ru/home

Есть гуманный бесплатный тариф.

Го пробовать

@cgevent
15👍6
VEED Fabric 1.0

Еще один аватарогенератор - создатель говорящих голов (причем не только для людей).

С очень агрессивной ценовой политикой и кампанией:
VEED Fabric 1.0 → 3 minutes
(it's also 50x cheaper than VEO3)

Хотя они же пишут вот так:
Create 1-minute-long videos
• 60x cheaper
• 7x faster

Но не говорят, по сравнению с чем дешевле(теперь знаем, что с Вео) и быстрее.

Да, есть бесплатный тариф, два text2video видоса в 720p в день.

Работает с мультяшными персонажами и даже с животными.

https://www.veed.io/ai/fabric-1-0

@cgevent
👍195🔥3
Про Мешкапад я неоднократно писал.

Это как бы нейромокап с телефона или камеры.
Теперь они вструмили внутрь Cameta Tracker - то есть вам отдается на только движение персонажа в виде костей, но и траектория камеры (glb файл).

И получилось у них сильно наряднее, чем у Kinetix, про которых писал недавно.

Пока доступно только для multi-person extraction, но обещают сделать и для захвата одного персонажа.

https://me.meshcapade.com/vault
@cgevent
👍146😱4🔥2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Мне нравятся истории вокруг работ. Нейропрожарка начинает жить своей жизнью, вовлекаясь в какие-то истории из жизни авторов.

На сей раз смотрим на альтернативу съемкам от Апполинарии:

580₽, болото и нейросети — рецепт моего первого клипа)

🌿 История ролика началась с того, что я решила… воспроизвести картину Офелия, где она плывет в окружении цветов.
Платье есть, настроение драматичное тоже, осталось найти болото для съемки.

Нашла фотографа и заросшее озеро.
Залезла и поняла: романтика романтикой, а глинистое дно и запах болота в реальности не такие уж поэтичные.

Видео никакое снимать там не захотелось. Ограничились фотосессией!

А дальше «вмешался» ИИ. Подруга написала про меня стихи → мы превратили их в песню через нейросеть SUNO → и я решила оживить фотографии.

Сначала пробовала через телеграм-бота на основе VEO, первые две генерации отлично, остальное все получилось ужасно! (580 ₽ ушли на эксперимент ради любопытства).

И тут вижу новость: Hailuo, 7 дней бесплатно. Всё, судьба!

Начала подбирать начальные и конечные кадры. Фото выбирала подходящие по цветовому оттенку и где при генерации получался плавный и логичный переход движений.

Нагенерировала чуть больше 30 анимаций, без промтов - смотрела что он сам предложит.

И один кадр, который я собрала платно через телеграм-бот на основе Veo.

Итого часа 4 на генерации и часа 1,5 на монтаж в CapCut.

Так родился мой первый клип, в котором нет ни одного снятого видео. Все переходы и оживления — дело рук Hailuo.
@polino4ka_p автор цифрового контента

@cgevent
👎42🔥33👍116😁2
Media is too big
VIEW IN TELEGRAM
Рендер или видео

Понятно, что исторически название этих постов останется для обсуждения того, как робаты стремительно совершенствуются.

Это теперь всегда видео, причем оно НЕ ускорено ни разу.

Какие злые лица у кожаных, мне вот честно хотелось, чтобы малыш встал и элегантным уширо маваши гери дал в челюсть злому толстяку.
Представляете, что было бы, если бы мелкий попал ХОТЯ БЫ ОДИН раз?
Там скорость движения "ноги" такая, что кожаным и не снилась.

Посмотрите до конца, там где робат крутит сальто.

В общем зря они такие видосы записывают. ИИ же все помнит. Потом поздно будет плакать "это не я был".

@cgevent
😁33😱16🔥127👍2
Нвидия вонзает в OpenAI 100 МИЛЛИАРДОВ долларов.
Это превентивная мера? Чтобы не баловались своими чипами?

Неделей раньше Нвидия вонзила 5 миллиардов (всего-то) в акции Интел. Они объявили о совместной разработке «Intel x86 RTX SOC» для PC с графикой Nvidia (привет Эппле), а также о создании специальных процессоров Nvidia x86 для центров обработки данных.

А ведь когда-то Intel рассматривал покупку Nvidia за 20 миллиардов целиком, но почему-то решил делать собственную графику.

Куда катится мир...

https://openai.com/index/openai-nvidia-systems-partnership/

@cgevent
1😱33😁86🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Оппа, Нанабанана покусала Recraft

В него завозят Chat Mode - теперь вы можете разговаривать с самим собой и со своими картинками подобно Нанабанане. В чате.

К сожалению, попробовать пока нельзя, но можно записаться в бету: https://www.recraft.ai/chat-beta#submit

Я смотрю, что все постепенно переобуваются в мультимодальные разговоры с картинками.

Первым был chatGPT Image
Потом Flux Kontext
Затем Qwen Edit
Потом Нанабанана
Иже с ними Seedream 4
Также Reve обновленный
И вот теперь Рекрафтищще

Кого забыл?

@cgevent
22👍12👎1
Следим за Qwen, у них много апдейтов.

И все опенсорсное.

Qwen-3-Omni
https://github.com/QwenLM/Qwen3-Omni
Первая во истину омнимодальная end-to-end модель. end-to-end означает, что текст, изображения, аудио и видео принимаются на вход напрямую и обрабатываются без конвертации друг в друга, например audio-to-text? а потом text-to-llm.
119 языков, есть русский
задержка 211 ms
на вход можно аудио до 30(!) минут.
есть tool calling

Три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner

И уже можно пробовать:
https://chat.qwen.ai/?models=qwen3-omni-flash
Есть демо: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

Обновился Qwen-Image-Edit-2509

https://github.com/QwenLM/Qwen-Image
больше изображений на входе
как бы лучше держит исходник и точность выше
ControlNet для поз

Отдельно обновили Qwen3-TTS-Flash
https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
14 голосов
10 языков (есть русский)
задержка 37(!) ms

Ждем, чем ответит Deepseek 4

@cgevent
🔥42👍136
This media is not supported in your browser
VIEW IN TELEGRAM
Мир Дикого Запада уже здесь

Я вот тут пощу разные видео, где кожаные бьют ногами маленьких, но удаленьких робатов.
Как правило, у этих робатов на голове либо массивный обруч либо круглая болванка.

А вот если бы у них были выразительные эмоциональны лица, но не каждый бы поднял ногу на малыша.

Китайцы, тем временем, разрабатывают именно лица для братьев наших меньших(пока).

Компания AheadForm из Ханчжоу занимается не только созданием эмоциональных гуманоидных роботов, но и копий людей будущего.

В сотрудничестве с художниками они создают красивые образы, основанные на системе CharacterMind, которая наделяет роботов «эмоциями». Сейчас у них в разработке "эльфы"

Система понимает тон, выражения и жесты, а затем реагирует голосом, мимикой, зрительным контактом и языком тела, благодаря чему взаимодействие с роботом похоже на общение с реальным человеком.

Короче, язык тела для робатов, включая мимику.

Досмотрите до конца, на крупных планах иногда кажется, что это 3Д из Метаверсика.

Вы бы стали мочить такого ногами?

Я зашел на их сайт и был явно убежден, что это 3Д-рендер.

https://www.aheadform.com/

Ан нет.

Вот вам еще для хорошего сна:
https://www.youtube.com/watch?v=9vQ_DtKxvug

@cgevent
👍35🔥259😱6
This media is not supported in your browser
VIEW IN TELEGRAM
Кому генерацию 3Д-кадовских моделей по чертежам и промптам?

забирайте тут:

https://www.spectrallabs.ai/research/SGS-1

@cgevent
🔥30👍111
Питаю слабость к разного рода статистике, датавизу, люблю, когда все бигдато.
Немного про удаленку:


Порядка 28% работников во всём мире работают удалённо
Порядка 16% всех компаний — полностью удалённые

Несмотря на то, что корпорации пытаются возвращать часть команд в офис, тренд на удалёнку не падает, а растёт. Особенно среди средних и небольших компаний, особенно global-стартапов. Причины очевидны:

— не нужно релоцировать сотрудников, контракторы могут работать откуда угодно
— можно нанимать лучшие таланты где бы они не находились
— можно нанимать крутых спецов, которые говорят с тобой на одном языке

При этом организовывать удалённую работу с контракторами непросто:

— нужно убедиться, что платёж из банка твоей страны (страны регистрации компании) дойдёт успешно до контрактора
— нужно убедиться, что при платеже контракторам в конкретную страну не будет рисков мисквалификации
— нужно подготовить контракт и закрывающие документы, а также по каждой выплате каждый раз готовить документы

⭐️Платформа 4dev.com позволяет решить эти сложности в одном окне. Платформа автоматизирует выплаты удалённым сотрудникам и фрилансерам — по всему миру и в соответствии с законами:

· Один договор на всех сотрудников. Не нужно самостоятельно готовить инвойсы и контракты
· Выплаты в 100+ стран, включая СНГ. Буквально за пару кликов
· Автоматический документооборот. Инвойсы подходят для бухгалтерии, аудитов, due diligence

💵А ещё можно платить команде в криптовалюте и мгновенно получать инвойсы.

Никаких подписок и скрытых платежей. Платформа берёт только комиссию 1-3% от каждой выплаты. Чем больше вы платите команде — тем ниже ваша комиссия.

Запишитесь на демо на встрече рассчитают стоимость выплат для вашей компании и ответят на все вопросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎128😁7👍3