А Эмад тем временем троллит всех в Твитторе.
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq
👍17
Forwarded from Dreams and Robots
В общем, пока мы все обсуждали видео от Соры, которую еще никто в глаза не видел, Suno сделали настоящую революцию. Инструментальный режим в третьей версии генерирует практически идеальную продакшн-музыку.
Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.
Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.
Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.
Композиторам успехов!
#suno
Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.
Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.
Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.
Композиторам успехов!
#suno
👍62🔥38
Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://tg-me.sbs/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Я уже писал про нее 3 недели назад.
https://tg-me.sbs/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Telegram
Метаверсище и ИИще
Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
👎16👍11🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-генератор от Snap.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
🔥32👍12
Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
👍67🔥10👎5
Про пальцы и тексты. Баг, а не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и самишрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
👍56
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите гибридный пайплайн от генерации 3D-модели персонажа, до рига, анимации и нейрорендера. Без всякого ретопа, текстурирования и шейдинга.
Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.
Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.
Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.
P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.
Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.
P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".
Короче, расслабляем булки, ИИ все поправит. За вас.
Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895
Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.
Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.
Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.
P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.
Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.
P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".
Короче, расслабляем булки, ИИ все поправит. За вас.
Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895
👍43🔥12👎6
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
Руки, ноги или колеса?
Ответ: все вместе
А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.
Ответ: все вместе
А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.
🔥49