Зазвук
Тут в коментах родилась обратная метрика.
Если в видеогенераторы мы оценивали в Вилах Смитах, то кожаную музику можно оценивать в Сунах.
Разброс от "наизи", до "если повозиться, то можно сделать в Суно" и, наконец, "не, Суно в такое не может"
Я вот послушал сдуру радио в машине и у меня 90% "наизи".
Но вернемся у ИИ-музике.
Тут прислали новый разделитель на треки(стемы):
https://audiio.com/elements-pro
Судя по сайту, шрифтам и подаче, это кот в мешке - вам сразу предлагают купить за 100 баксов подписку Про, где эти Элементы встроены.
А еще они смешные: мы, говорят, партнеримся с AudioShake, поэтому на нашем сайте партнеры AaudioShake.
Из старых добрых разделителей есть: https://www.lalal.ai/
Но есть и новый игрок:
MVSEP - выполняет разделение звука на голосовой и отдельные музыкальные треки
Внутри модель на базе архитектуры BS Roformer, которая разделяет треки на 6 дорожек: бас, барабаны, гитара, пианино, вокал, остальное)
Внутри зачем-то есть алгоритм генерации аудио по текстовым подсказкам Stable Audio Open Gen (да, от Стабилити), также, есть модель Parakeet от NVIDIA для задачи распознания речи, Matchering (by sergree) - в общем странный комбайн.
Плюс в том, что можно сразу проверить разделение на треки вот тут:
https://mvsep.com/ru/home
Есть гуманный бесплатный тариф.
Го пробовать
@cgevent
Тут в коментах родилась обратная метрика.
Если в видеогенераторы мы оценивали в Вилах Смитах, то кожаную музику можно оценивать в Сунах.
Разброс от "наизи", до "если повозиться, то можно сделать в Суно" и, наконец, "не, Суно в такое не может"
Я вот послушал сдуру радио в машине и у меня 90% "наизи".
Но вернемся у ИИ-музике.
Тут прислали новый разделитель на треки(стемы):
https://audiio.com/elements-pro
Судя по сайту, шрифтам и подаче, это кот в мешке - вам сразу предлагают купить за 100 баксов подписку Про, где эти Элементы встроены.
А еще они смешные: мы, говорят, партнеримся с AudioShake, поэтому на нашем сайте партнеры AaudioShake.
Из старых добрых разделителей есть: https://www.lalal.ai/
Но есть и новый игрок:
MVSEP - выполняет разделение звука на голосовой и отдельные музыкальные треки
Внутри модель на базе архитектуры BS Roformer, которая разделяет треки на 6 дорожек: бас, барабаны, гитара, пианино, вокал, остальное)
Внутри зачем-то есть алгоритм генерации аудио по текстовым подсказкам Stable Audio Open Gen (да, от Стабилити), также, есть модель Parakeet от NVIDIA для задачи распознания речи, Matchering (by sergree) - в общем странный комбайн.
Плюс в том, что можно сразу проверить разделение на треки вот тут:
https://mvsep.com/ru/home
Есть гуманный бесплатный тариф.
Го пробовать
@cgevent
❤15👍6
VEED Fabric 1.0
Еще один аватарогенератор - создатель говорящих голов (причем не только для людей).
С очень агрессивной ценовой политикой и кампанией:
VEED Fabric 1.0 → 3 minutes
(it's also 50x cheaper than VEO3)
Хотя они же пишут вот так:
Create 1-minute-long videos
• 60x cheaper
• 7x faster
Но не говорят, по сравнению с чем дешевле(теперь знаем, что с Вео) и быстрее.
Да, есть бесплатный тариф, два text2video видоса в 720p в день.
Работает с мультяшными персонажами и даже с животными.
https://www.veed.io/ai/fabric-1-0
@cgevent
Еще один аватарогенератор - создатель говорящих голов (причем не только для людей).
С очень агрессивной ценовой политикой и кампанией:
VEED Fabric 1.0 → 3 minutes
(it's also 50x cheaper than VEO3)
Хотя они же пишут вот так:
Create 1-minute-long videos
• 60x cheaper
• 7x faster
Но не говорят, по сравнению с чем дешевле(теперь знаем, что с Вео) и быстрее.
Да, есть бесплатный тариф, два text2video видоса в 720p в день.
Работает с мультяшными персонажами и даже с животными.
https://www.veed.io/ai/fabric-1-0
@cgevent
👍19❤5🔥3
Про Мешкапад я неоднократно писал.
Это как бы нейромокап с телефона или камеры.
Теперь они вструмили внутрь Cameta Tracker - то есть вам отдается на только движение персонажа в виде костей, но и траектория камеры (glb файл).
И получилось у них сильно наряднее, чем у Kinetix, про которых писал недавно.
Пока доступно только для multi-person extraction, но обещают сделать и для захвата одного персонажа.
https://me.meshcapade.com/vault
@cgevent
Это как бы нейромокап с телефона или камеры.
Теперь они вструмили внутрь Cameta Tracker - то есть вам отдается на только движение персонажа в виде костей, но и траектория камеры (glb файл).
И получилось у них сильно наряднее, чем у Kinetix, про которых писал недавно.
Пока доступно только для multi-person extraction, но обещают сделать и для захвата одного персонажа.
https://me.meshcapade.com/vault
@cgevent
👍14❤6😱4🔥2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
Мне нравятся истории вокруг работ. Нейропрожарка начинает жить своей жизнью, вовлекаясь в какие-то истории из жизни авторов.
На сей раз смотрим на альтернативу съемкам от Апполинарии:
580₽, болото и нейросети — рецепт моего первого клипа)
🌿 История ролика началась с того, что я решила… воспроизвести картину Офелия, где она плывет в окружении цветов.
Платье есть, настроение драматичное тоже, осталось найти болото для съемки.
Нашла фотографа и заросшее озеро.
Залезла и поняла: романтика романтикой, а глинистое дно и запах болота в реальности не такие уж поэтичные.
Видео никакое снимать там не захотелось. Ограничились фотосессией!
А дальше «вмешался» ИИ. Подруга написала про меня стихи → мы превратили их в песню через нейросеть SUNO → и я решила оживить фотографии.
Сначала пробовала через телеграм-бота на основе VEO, первые две генерации отлично, остальное все получилось ужасно! (580 ₽ ушли на эксперимент ради любопытства).
И тут вижу новость: Hailuo, 7 дней бесплатно. Всё, судьба!
Начала подбирать начальные и конечные кадры. Фото выбирала подходящие по цветовому оттенку и где при генерации получался плавный и логичный переход движений.
Нагенерировала чуть больше 30 анимаций, без промтов - смотрела что он сам предложит.
И один кадр, который я собрала платно через телеграм-бот на основе Veo.
Итого часа 4 на генерации и часа 1,5 на монтаж в CapCut.
Так родился мой первый клип, в котором нет ни одного снятого видео. Все переходы и оживления — дело рук Hailuo.
@polino4ka_p автор цифрового контента
@cgevent
Мне нравятся истории вокруг работ. Нейропрожарка начинает жить своей жизнью, вовлекаясь в какие-то истории из жизни авторов.
На сей раз смотрим на альтернативу съемкам от Апполинарии:
580₽, болото и нейросети — рецепт моего первого клипа)
🌿 История ролика началась с того, что я решила… воспроизвести картину Офелия, где она плывет в окружении цветов.
Платье есть, настроение драматичное тоже, осталось найти болото для съемки.
Нашла фотографа и заросшее озеро.
Залезла и поняла: романтика романтикой, а глинистое дно и запах болота в реальности не такие уж поэтичные.
Видео никакое снимать там не захотелось. Ограничились фотосессией!
А дальше «вмешался» ИИ. Подруга написала про меня стихи → мы превратили их в песню через нейросеть SUNO → и я решила оживить фотографии.
Сначала пробовала через телеграм-бота на основе VEO, первые две генерации отлично, остальное все получилось ужасно! (580 ₽ ушли на эксперимент ради любопытства).
И тут вижу новость: Hailuo, 7 дней бесплатно. Всё, судьба!
Начала подбирать начальные и конечные кадры. Фото выбирала подходящие по цветовому оттенку и где при генерации получался плавный и логичный переход движений.
Нагенерировала чуть больше 30 анимаций, без промтов - смотрела что он сам предложит.
И один кадр, который я собрала платно через телеграм-бот на основе Veo.
Итого часа 4 на генерации и часа 1,5 на монтаж в CapCut.
Так родился мой первый клип, в котором нет ни одного снятого видео. Все переходы и оживления — дело рук Hailuo.
@polino4ka_p автор цифрового контента
@cgevent
👎42🔥33👍11❤6😁2
Media is too big
VIEW IN TELEGRAM
Рендер или видео
Понятно, что исторически название этих постов останется для обсуждения того, как робаты стремительно совершенствуются.
Это теперь всегда видео, причем оно НЕ ускорено ни разу.
Какие злые лица у кожаных, мне вот честно хотелось, чтобы малыш встал и элегантным уширо маваши гери дал в челюсть злому толстяку.
Представляете, что было бы, если бы мелкий попал ХОТЯ БЫ ОДИН раз?
Там скорость движения "ноги" такая, что кожаным и не снилась.
Посмотрите до конца, там где робат крутит сальто.
В общем зря они такие видосы записывают. ИИ же все помнит. Потом поздно будет плакать "это не я был".
@cgevent
Понятно, что исторически название этих постов останется для обсуждения того, как робаты стремительно совершенствуются.
Это теперь всегда видео, причем оно НЕ ускорено ни разу.
Какие злые лица у кожаных, мне вот честно хотелось, чтобы малыш встал и элегантным уширо маваши гери дал в челюсть злому толстяку.
Представляете, что было бы, если бы мелкий попал ХОТЯ БЫ ОДИН раз?
Там скорость движения "ноги" такая, что кожаным и не снилась.
Посмотрите до конца, там где робат крутит сальто.
В общем зря они такие видосы записывают. ИИ же все помнит. Потом поздно будет плакать "это не я был".
@cgevent
😁33😱16🔥12❤7👍2
Нвидия вонзает в OpenAI 100 МИЛЛИАРДОВ долларов.
Это превентивная мера? Чтобы не баловались своими чипами?
Неделей раньше Нвидия вонзила 5 миллиардов (всего-то) в акции Интел. Они объявили о совместной разработке «Intel x86 RTX SOC» для PC с графикой Nvidia (привет Эппле), а также о создании специальных процессоров Nvidia x86 для центров обработки данных.
А ведь когда-то Intel рассматривал покупку Nvidia за 20 миллиардов целиком, но почему-то решил делать собственную графику.
Куда катится мир...
https://openai.com/index/openai-nvidia-systems-partnership/
@cgevent
Это превентивная мера? Чтобы не баловались своими чипами?
Неделей раньше Нвидия вонзила 5 миллиардов (всего-то) в акции Интел. Они объявили о совместной разработке «Intel x86 RTX SOC» для PC с графикой Nvidia (привет Эппле), а также о создании специальных процессоров Nvidia x86 для центров обработки данных.
А ведь когда-то Intel рассматривал покупку Nvidia за 20 миллиардов целиком, но почему-то решил делать собственную графику.
Куда катится мир...
https://openai.com/index/openai-nvidia-systems-partnership/
@cgevent
OpenAI
OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems
OpenAI and NVIDIA announce a strategic partnership to deploy 10 gigawatts of AI datacenters powered by NVIDIA systems, with the first phase launching in 2026.
1😱33😁8❤6🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Оппа, Нанабанана покусала Recraft
В него завозят Chat Mode - теперь вы можете разговаривать с самим собой и со своими картинками подобно Нанабанане. В чате.
К сожалению, попробовать пока нельзя, но можно записаться в бету: https://www.recraft.ai/chat-beta#submit
Я смотрю, что все постепенно переобуваются в мультимодальные разговоры с картинками.
Первым был chatGPT Image
Потом Flux Kontext
Затем Qwen Edit
Потом Нанабанана
Иже с ними Seedream 4
Также Reve обновленный
И вот теперь Рекрафтищще
Кого забыл?
@cgevent
В него завозят Chat Mode - теперь вы можете разговаривать с самим собой и со своими картинками подобно Нанабанане. В чате.
К сожалению, попробовать пока нельзя, но можно записаться в бету: https://www.recraft.ai/chat-beta#submit
Я смотрю, что все постепенно переобуваются в мультимодальные разговоры с картинками.
Первым был chatGPT Image
Потом Flux Kontext
Затем Qwen Edit
Потом Нанабанана
Иже с ними Seedream 4
Также Reve обновленный
И вот теперь Рекрафтищще
Кого забыл?
@cgevent
❤22👍12👎1
Следим за Qwen, у них много апдейтов.
И все опенсорсное.
Qwen-3-Omni
https://github.com/QwenLM/Qwen3-Omni
Первая во истину омнимодальная end-to-end модель. end-to-end означает, что текст, изображения, аудио и видео принимаются на вход напрямую и обрабатываются без конвертации друг в друга, например audio-to-text? а потом text-to-llm.
119 языков, есть русский
задержка 211 ms
на вход можно аудио до 30(!) минут.
есть tool calling
Три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
И уже можно пробовать:
https://chat.qwen.ai/?models=qwen3-omni-flash
Есть демо: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
Обновился Qwen-Image-Edit-2509
https://github.com/QwenLM/Qwen-Image
больше изображений на входе
как бы лучше держит исходник и точность выше
ControlNet для поз
Отдельно обновили Qwen3-TTS-Flash
https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
14 голосов
10 языков (есть русский)
задержка 37(!) ms
Ждем, чем ответит Deepseek 4
@cgevent
И все опенсорсное.
Qwen-3-Omni
https://github.com/QwenLM/Qwen3-Omni
Первая во истину омнимодальная end-to-end модель. end-to-end означает, что текст, изображения, аудио и видео принимаются на вход напрямую и обрабатываются без конвертации друг в друга, например audio-to-text? а потом text-to-llm.
119 языков, есть русский
задержка 211 ms
на вход можно аудио до 30(!) минут.
есть tool calling
Три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
И уже можно пробовать:
https://chat.qwen.ai/?models=qwen3-omni-flash
Есть демо: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
Обновился Qwen-Image-Edit-2509
https://github.com/QwenLM/Qwen-Image
больше изображений на входе
как бы лучше держит исходник и точность выше
ControlNet для поз
Отдельно обновили Qwen3-TTS-Flash
https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
14 голосов
10 языков (есть русский)
задержка 37(!) ms
Ждем, чем ответит Deepseek 4
@cgevent
🔥42👍13❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Мир Дикого Запада уже здесь
Я вот тут пощу разные видео, где кожаные бьют ногами маленьких, но удаленьких робатов.
Как правило, у этих робатов на голове либо массивный обруч либо круглая болванка.
А вот если бы у них были выразительные эмоциональны лица, но не каждый бы поднял ногу на малыша.
Китайцы, тем временем, разрабатывают именно лица для братьев наших меньших(пока).
Компания AheadForm из Ханчжоу занимается не только созданием эмоциональных гуманоидных роботов, но и копий людей будущего.
В сотрудничестве с художниками они создают красивые образы, основанные на системе CharacterMind, которая наделяет роботов «эмоциями». Сейчас у них в разработке "эльфы"
Система понимает тон, выражения и жесты, а затем реагирует голосом, мимикой, зрительным контактом и языком тела, благодаря чему взаимодействие с роботом похоже на общение с реальным человеком.
Короче, язык тела для робатов, включая мимику.
Досмотрите до конца, на крупных планах иногда кажется, что это 3Д из Метаверсика.
Вы бы стали мочить такого ногами?
Я зашел на их сайт и был явно убежден, что это 3Д-рендер.
https://www.aheadform.com/
Ан нет.
Вот вам еще для хорошего сна:
https://www.youtube.com/watch?v=9vQ_DtKxvug
@cgevent
Я вот тут пощу разные видео, где кожаные бьют ногами маленьких, но удаленьких робатов.
Как правило, у этих робатов на голове либо массивный обруч либо круглая болванка.
А вот если бы у них были выразительные эмоциональны лица, но не каждый бы поднял ногу на малыша.
Китайцы, тем временем, разрабатывают именно лица для братьев наших меньших(пока).
Компания AheadForm из Ханчжоу занимается не только созданием эмоциональных гуманоидных роботов, но и копий людей будущего.
В сотрудничестве с художниками они создают красивые образы, основанные на системе CharacterMind, которая наделяет роботов «эмоциями». Сейчас у них в разработке "эльфы"
Система понимает тон, выражения и жесты, а затем реагирует голосом, мимикой, зрительным контактом и языком тела, благодаря чему взаимодействие с роботом похоже на общение с реальным человеком.
Короче, язык тела для робатов, включая мимику.
Досмотрите до конца, на крупных планах иногда кажется, что это 3Д из Метаверсика.
Вы бы стали мочить такого ногами?
Я зашел на их сайт и был явно убежден, что это 3Д-рендер.
https://www.aheadform.com/
Ан нет.
Вот вам еще для хорошего сна:
https://www.youtube.com/watch?v=9vQ_DtKxvug
@cgevent
👍35🔥25❤9😱6
This media is not supported in your browser
VIEW IN TELEGRAM
Кому генерацию 3Д-кадовских моделей по чертежам и промптам?
забирайте тут:
https://www.spectrallabs.ai/research/SGS-1
@cgevent
забирайте тут:
https://www.spectrallabs.ai/research/SGS-1
@cgevent
🔥30👍11❤1
Питаю слабость к разного рода статистике, датавизу, люблю, когда все бигдато.
Немного про удаленку:
Порядка 28% работников во всём мире работают удалённо
Порядка 16% всех компаний — полностью удалённые
Несмотря на то, что корпорации пытаются возвращать часть команд в офис, тренд на удалёнку не падает, а растёт. Особенно среди средних и небольших компаний, особенно global-стартапов. Причины очевидны:
— не нужно релоцировать сотрудников, контракторы могут работать откуда угодно
— можно нанимать лучшие таланты где бы они не находились
— можно нанимать крутых спецов, которые говорят с тобой на одном языке
При этом организовывать удалённую работу с контракторами непросто:
— нужно убедиться, что платёж из банка твоей страны (страны регистрации компании) дойдёт успешно до контрактора
— нужно убедиться, что при платеже контракторам в конкретную страну не будет рисков мисквалификации
— нужно подготовить контракт и закрывающие документы, а также по каждой выплате каждый раз готовить документы
⭐️ Платформа 4dev.com позволяет решить эти сложности в одном окне. Платформа автоматизирует выплаты удалённым сотрудникам и фрилансерам — по всему миру и в соответствии с законами:
· Один договор на всех сотрудников. Не нужно самостоятельно готовить инвойсы и контракты
· Выплаты в 100+ стран, включая СНГ. Буквально за пару кликов
· Автоматический документооборот. Инвойсы подходят для бухгалтерии, аудитов, due diligence
💵 А ещё можно платить команде в криптовалюте и мгновенно получать инвойсы.
Никаких подписок и скрытых платежей. Платформа берёт только комиссию 1-3% от каждой выплаты. Чем больше вы платите команде — тем ниже ваша комиссия.
Запишитесь на демо → на встрече рассчитают стоимость выплат для вашей компании и ответят на все вопросы.
Немного про удаленку:
Порядка 28% работников во всём мире работают удалённо
Порядка 16% всех компаний — полностью удалённые
Несмотря на то, что корпорации пытаются возвращать часть команд в офис, тренд на удалёнку не падает, а растёт. Особенно среди средних и небольших компаний, особенно global-стартапов. Причины очевидны:
— не нужно релоцировать сотрудников, контракторы могут работать откуда угодно
— можно нанимать лучшие таланты где бы они не находились
— можно нанимать крутых спецов, которые говорят с тобой на одном языке
При этом организовывать удалённую работу с контракторами непросто:
— нужно убедиться, что платёж из банка твоей страны (страны регистрации компании) дойдёт успешно до контрактора
— нужно убедиться, что при платеже контракторам в конкретную страну не будет рисков мисквалификации
— нужно подготовить контракт и закрывающие документы, а также по каждой выплате каждый раз готовить документы
· Один договор на всех сотрудников. Не нужно самостоятельно готовить инвойсы и контракты
· Выплаты в 100+ стран, включая СНГ. Буквально за пару кликов
· Автоматический документооборот. Инвойсы подходят для бухгалтерии, аудитов, due diligence
Никаких подписок и скрытых платежей. Платформа берёт только комиссию 1-3% от каждой выплаты. Чем больше вы платите команде — тем ниже ваша комиссия.
Запишитесь на демо → на встрече рассчитают стоимость выплат для вашей компании и ответят на все вопросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎12❤8😁7👍3
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Кто подставил кролика Роджера вышел в 1988 году, его производство заняло больше года, и в нём участвовали гиганты спецэффектов из ILM и Pixar.
А теперь 2D и 3D персонажи вплетаются в кадр за минуты с просчётом отражений и взаимодействий с поверхностями.
Сделано с помощью Pika.
Твит
А теперь 2D и 3D персонажи вплетаются в кадр за минуты с просчётом отражений и взаимодействий с поверхностями.
Сделано с помощью Pika.
Твит
12🔥84👍21❤7👎4😁2
#Нейропрожарка
Недавно команда Яндекс.Браузера пришла с задачей-экспериментом:
пересобрать их рекламные ролики с помощью нейросетей и сравнить результат с классическим продакшном.
И команда из студии Ambition взялась за дело, сделав два ролика с помощью AI-пайплайна.
Инсайды процесса:
–В отличие от линейного классического CG-процесса, генеративный продакшен часто требует делать шаги назад, иногда вплоть до самых первых шагов.
–Стиллы — фундамент. Всё, что касается эстетики, должно быть выверено, именно, на этом этапе. Основным инструментом для достижения консистентности кадров стал runway gen 4, а отдельные концепты генерились в Imagen, flux, и др.
–Для анимации мы использовали стек сервисов: Kling 2.1, Luma, Runway Gen4, Kling 1.6 и Sora.
Ограничения AI-подхода:
–Липсинг пока остаётся слабым местом.
–Ограничения по крупности (разрешению).
–Сложности с реалистичными сценами.
–Трудности при многоуровневом действии в одном кадре.
Такого рода эксперименты важны для индустрии: они помогают понять, где технологии действительно экономят ресурсы, а где ещё пока результат собирается вручную
@cgevent
Недавно команда Яндекс.Браузера пришла с задачей-экспериментом:
пересобрать их рекламные ролики с помощью нейросетей и сравнить результат с классическим продакшном.
И команда из студии Ambition взялась за дело, сделав два ролика с помощью AI-пайплайна.
Инсайды процесса:
–В отличие от линейного классического CG-процесса, генеративный продакшен часто требует делать шаги назад, иногда вплоть до самых первых шагов.
–Стиллы — фундамент. Всё, что касается эстетики, должно быть выверено, именно, на этом этапе. Основным инструментом для достижения консистентности кадров стал runway gen 4, а отдельные концепты генерились в Imagen, flux, и др.
–Для анимации мы использовали стек сервисов: Kling 2.1, Luma, Runway Gen4, Kling 1.6 и Sora.
Ограничения AI-подхода:
–Липсинг пока остаётся слабым местом.
–Ограничения по крупности (разрешению).
–Сложности с реалистичными сценами.
–Трудности при многоуровневом действии в одном кадре.
Такого рода эксперименты важны для индустрии: они помогают понять, где технологии действительно экономят ресурсы, а где ещё пока результат собирается вручную
@cgevent
1👎65👍57🔥16❤13😁3
Media is too big
VIEW IN TELEGRAM
Клинг 2.5
Серега SVT меня опередил и в коментах все подробно расписал.
Остается лишь процитировать его:
Клинг обновился, теперь 2,5 моделька.
1. Лучшая точность следования промтам и временной контроль
Новая модель значительно улучшена в плане следования промтам. Оптимизация структуры текста и внутренней архитектуры обработки позволяет глубже анализировать сложные инструкции, включающие несколько шагов и причинно-следственные связи, а не только отдельные действия. Это даёт возможность пользователям управлять более сложным развитием видеоконтента, включая взаимодействия персонажей и переходы между сценами. Благодаря улучшенному контролю временной логики и творческого выражения, статичные изображения можно превращать в динамичные видео с последовательным сюжетом и насыщенными историями.
2. Более плавные и стабильные динамичные сцены
Для генерации более динамичных движений с широким диапазоном действий новая модель использует передовые методы обучения, такие как обучение с подкреплением, и стратегически корректирует распределение обучающих данных. Это позволяет модели лучше изучать и имитировать физическую динамику реального мира, что делает её способной создавать высокодинамичные движения и движения камеры, которые раньше было трудно реализовать. В результате динамика улучшается при сохранении плавности и стабильности, эффективно избегая распространённых проблем в сложных динамических сценах, таких как сбои или искажения.
3. Согласованность с разнообразными стилями
Чтобы обеспечить бесшовное эстетическое соответствие между видео и референсным изображением, модель использует высокоинтенсивные методы кондиционирования изображения и обучается на огромных объёмах высококачественного видеоматериала. Эта стратегия позволяет модели точно сохранять и передавать художественный стиль оригинала, включая цвета, свет, текстуры и общую атмосферу. В результате даже при сложной динамике в видео каждый кадр остаётся в высокой степени согласованным с визуальным стилем и характеристиками референсного изображения.
4. Лучшие результаты по более низкой цене (на 30% дешевле, чем в том же классе 2.1)
Генерация 5 секунд с выходом в 1080p теперь стоит 25 кредитов (раньше было 35 кредитов)! Это означает более 1000+ видео в 1080p с использованием 2.5 Turbo в месяц при Ultra-плане и 320 видео в 1080p с использованием 2.5 Turbo в месяц при Premier-плане.
@cgevent
Серега SVT меня опередил и в коментах все подробно расписал.
Остается лишь процитировать его:
Клинг обновился, теперь 2,5 моделька.
1. Лучшая точность следования промтам и временной контроль
Новая модель значительно улучшена в плане следования промтам. Оптимизация структуры текста и внутренней архитектуры обработки позволяет глубже анализировать сложные инструкции, включающие несколько шагов и причинно-следственные связи, а не только отдельные действия. Это даёт возможность пользователям управлять более сложным развитием видеоконтента, включая взаимодействия персонажей и переходы между сценами. Благодаря улучшенному контролю временной логики и творческого выражения, статичные изображения можно превращать в динамичные видео с последовательным сюжетом и насыщенными историями.
2. Более плавные и стабильные динамичные сцены
Для генерации более динамичных движений с широким диапазоном действий новая модель использует передовые методы обучения, такие как обучение с подкреплением, и стратегически корректирует распределение обучающих данных. Это позволяет модели лучше изучать и имитировать физическую динамику реального мира, что делает её способной создавать высокодинамичные движения и движения камеры, которые раньше было трудно реализовать. В результате динамика улучшается при сохранении плавности и стабильности, эффективно избегая распространённых проблем в сложных динамических сценах, таких как сбои или искажения.
3. Согласованность с разнообразными стилями
Чтобы обеспечить бесшовное эстетическое соответствие между видео и референсным изображением, модель использует высокоинтенсивные методы кондиционирования изображения и обучается на огромных объёмах высококачественного видеоматериала. Эта стратегия позволяет модели точно сохранять и передавать художественный стиль оригинала, включая цвета, свет, текстуры и общую атмосферу. В результате даже при сложной динамике в видео каждый кадр остаётся в высокой степени согласованным с визуальным стилем и характеристиками референсного изображения.
4. Лучшие результаты по более низкой цене (на 30% дешевле, чем в том же классе 2.1)
Генерация 5 секунд с выходом в 1080p теперь стоит 25 кредитов (раньше было 35 кредитов)! Это означает более 1000+ видео в 1080p с использованием 2.5 Turbo в месяц при Ultra-плане и 320 видео в 1080p с использованием 2.5 Turbo в месяц при Premier-плане.
@cgevent
❤23👍14🔥7👎1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Олигархи, проверяйте!
В платные акки Suno развозят пятую версию.
Леша Кондаков и Серега SVT - ждем подробных коментов
@cgevent
В платные акки Suno развозят пятую версию.
Леша Кондаков и Серега SVT - ждем подробных коментов
@cgevent
👍24🔥16❤5👎5😱2😁1
Завтра, 24 сентября покажут новый WAN 2.5 - будет стрим на китайском(и немного на английском).
Но самое приятное, что завтра же на агрегаторе WaveSpeed.ai он станет доступным для использования.
Понятно, что на Fal и Replicate его тоже рано или поздно привезут. Но эти деятели в последнее время прям самые первые по части новых моделей.
https://wavespeed.ai/
@cgevent
Но самое приятное, что завтра же на агрегаторе WaveSpeed.ai он станет доступным для использования.
Понятно, что на Fal и Replicate его тоже рано или поздно привезут. Но эти деятели в последнее время прям самые первые по части новых моделей.
https://wavespeed.ai/
@cgevent
🔥19👍6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Mixboard - AI for Text-to-Moodboard Creation.
С приходом редактирующих (а не только генерирующих) моделей для картинок, стало можно подавать на вход, например, шесть картинок. Это уже много и просится какой-то интерфейс для управления такими картинками, типа мудборда в Канве или Адобченко.
И вот Гугл, на стероидах Нанабананы решил въехать на эту поляну с бета-версией Mixboard - AI for Text-to-Moodboard Creation.
Он позволяет пользователям создавать, редактировать и ремикшировать визуальные концепции на бесконечном холсте(canvas) с помощью промптов. См. видео. Надо сказать это не первая попытка Гугла на этой поляне и Mixboard позиционируется как преемник снятого с производства Jamboard.
Пока доступно только через штатовский VPN и не для всех - продукт в бете.
Получается интересный тренд.
Со стороны входа напрашивается мультикартиночный интерфейс типа Canvas, ибо картинок на входе много, на этапе редактирования тоже просится некий мультисущностный UI, как в Reve, ибо сущностей на картинке много и хочется редактировать их по отдельности.
Мы пока на этапе говна и палок. Каждый генератор изобретает свой UI. И у Адобченко тут огромная фора.
К- Конкуренция. П - Прекрасно.
https://blog.google/technology/google-labs/mixboard/
@cgevent
С приходом редактирующих (а не только генерирующих) моделей для картинок, стало можно подавать на вход, например, шесть картинок. Это уже много и просится какой-то интерфейс для управления такими картинками, типа мудборда в Канве или Адобченко.
И вот Гугл, на стероидах Нанабананы решил въехать на эту поляну с бета-версией Mixboard - AI for Text-to-Moodboard Creation.
Он позволяет пользователям создавать, редактировать и ремикшировать визуальные концепции на бесконечном холсте(canvas) с помощью промптов. См. видео. Надо сказать это не первая попытка Гугла на этой поляне и Mixboard позиционируется как преемник снятого с производства Jamboard.
Пока доступно только через штатовский VPN и не для всех - продукт в бете.
Получается интересный тренд.
Со стороны входа напрашивается мультикартиночный интерфейс типа Canvas, ибо картинок на входе много, на этапе редактирования тоже просится некий мультисущностный UI, как в Reve, ибо сущностей на картинке много и хочется редактировать их по отдельности.
Мы пока на этапе говна и палок. Каждый генератор изобретает свой UI. И у Адобченко тут огромная фора.
К- Конкуренция. П - Прекрасно.
https://blog.google/technology/google-labs/mixboard/
@cgevent
❤18👍15🔥8