optozorax – Telegram

optozorax

4.48K subscribers

377 photos

59 videos

10 files

296 links

По деловым предложениям: optozorax.work@gmail.com.

Связь с админом через личку канала (кнопка в канале слева снизу).

Ютуб: https://www.youtube.com/@optozorax

Бусти: https://boosty.to/optozorax
Патреон: https://www.patreon.com

Сайт: optozorax.github.io

Download Telegram

About

Blog

Apps

Platform

4.48K subscribers

Я попал в СПИСОК... Но благо не Эпштейна, а список научно-популярных каналов от SciTopus: https://scitopus.com/youtube-list (рис. 1). Меня отнесли к разделу физика 😭😭😭. Видимо буду отдуваться за этот раздел в следующем видео...

Прикольно что есть люди, которые вот так вот следят за всем русским научпопом на ютубе и объединяют его.

Я довольно долго тыкался во все графики, очень прикольно. И вот например нашёл себя в одном из графиков (рис. 2), мой канал немного выбивается.

Так же я написал автору этого списка и через сырые данные навайбкодил (конечно же на расте) визуализацию хитмапа всех видео по их длительности и просмотрам (рис. 3). Здесь чётко выделяются два вида видео: видео до 1 минуты (вероятно это шортсы) и видео длиной около 100 минут (как вы думаете что это такое и почему их так много?). Ответ будет в комментариях.

Так же в комментарии приложу ещё несколько своих исследований и других подобных графиков.

А если вам интересно следить за всеми русскоязычными научно-популярными видео из этого списка, то можете заценить канал: @SciTopus. Например, последний пост там про видео от Онигири.

1👍74🔥35❤12❤‍🔥7🥰4😭3🆒3🤯2🍓1

7.41K views14:01

Forwarded from Onigiri

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Так как там можно генерировать других пользователей, оптозоракс сгенерировал, как я ем его аватарку, получилось это😅

Перед этим я как раз переснял себя с нормальным звуком и светом, и теперь совпадение почти идеальное

1❤‍🔥71🔥18😁15🤣10👀2❤1👍1🥰1😱1🆒1

4.68K views20:42

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Оказывается в Sora 2 можно загонять очень длинные тексты 🤔. И я взял все сценарии всех моих видео (на разных языках) и решил посмотреть что получится. Местами выглядит довольно неплохо. Причём прикольно что оно берёт элементы не только из начала сценария, но из середины и конца. А как вам?

И это всё генерит слабенькая модель для юзеров. Интересно, что будет если дать мои сценарии самой мощной модели, которой пользуются сами OpenAI 🤔

❤56🔥21👍9🥴6💩5👎4🤪4🆒3🥰1😁1🤨1

5.87K views15:11

Зацените как я себе улучшил монтажную жизнь. Теперь у меня текст фраз пишется прямо в программе для монтажа!!! Я вот только только пару часов монтажу с этой фичей, но уже понимаю что она увеличила удобство монтажа в 100 раз.

Сделал я это следующим образом: беру аудио и собираю его транскрипцию через whisper (скрипт написал через ChatGPT) и сохраняю в json файлик. Затем в Davinci Resolve вызываю другой скрипт (тоже написанный через ChatGPT), который берёт этот json и меняет название у фраз на то, какой текст под ними находится.

Да, я описал это очень просто, но под этим описанием столько подводных камней лежит, вы не представляете. Whisper невероятно криво работает, и я наверное натолкнулся на все возможные грабли:
* Не смог установить нужные cuda дрова, послал всех в жопу, запускаю на процессоре.
* Неправильно вычисляет тайминги слова, захватывает паузу до следующей фразы (никак не чинится).
* Автоматически удаляет неудачные дубли из текста, а они мне нужны чтобы удалить их в виде аудио. Не чинится вообще никак, даже другие модели такой фигнёй занимаются.
* Галлюцинирует в конце фразы "подписывайтесь и ставьте лайки", или "субтитры добавил DimaTorzok".

Кстати, это не всё что я улучшил в своей работе с аудио.

Раньше я вырезал вот эти мелкие фразы РУКАМИ. И тратил на это часы и миллионы нервных клеток. Теперь же я нашёл софтину под названием ReCut, которая делает это автоматически и сохраняет в виде таймлайна.

Затем я использую скрипт на python (опять же написанный ChatGPT), который вставляет вот эти бежевые паузы между каждой фразой, чтобы не подбирать паузы на глаз.

И кстати раскраска вот этих пауз тоже делается через отдельный скрипт в Davinci Resolve. Не спрашивайте кто этот скрипт написал.

В общем если раньше обработка аудио была страшным страданием, то теперь большую часть этого страдания я автоматизировал, чему безмерно рад.

А ещё безмерно рад существованию нейронок, потому что без них я бы все эти говноскрипты на говнопитоне с говноапишкой никогда бы не стал своими руками писать. Я послал ChatGPT гуглить подробности апишки Davinci Resolve, когда что-то не работает и все страдания перекладываются на неё.

Когда разберусь с новым видео, хочу создать второй канал и выложить видео об этой моей системе обработки аудио, чтобы каждый мог пользоваться.

🔥99❤29👍19🤡3🆒3🥰2🤮1

5.73K views17:05

Я попробовал программирующего агента Codex от OpenAI и он впечатляет.

У меня в дискорде очень много просили добавить новую фичу в Portal Explorer - чтобы можно было дублировать объект/матрицу итд.

К сожалению это нетривиальная фича, потому что каждый объект может ссылаться на матрицу не только по имени, но и иметь свою встроенную матрицу без имени. И проблема в том что эта встроенная матрица хранится во внешнем хранилище матриц, и при простом дублировании объекта он и его копия будут ссылаться на одну матрицу по её айдишнику, и в интерфейсе это будет выглядеть как одна матрица меняется из двух мест. А хочется чтобы было две независимые матрицы. То есть нужно делать рекурсивное копирование, и каждый раз обращаться к правильному хранилищу, ибо есть не только матрицы такие...

И сделать это геморройно, потому что у меня не самая удобная архитектура, и вообще там довольно кривоватый код (я тогда его изобретал впервые, и не знал как лучше), тестов конечно же нет, ибо всё визуальное.

Я открещивался от этой фичи, говорил что очень очень геморройно, не хочу её делать.

Но сегодня я установил Codex CLI - это официальная программа от OpenAI, которая под капотом вызывает GPT-5 особым образом, чтобы та могла модифицировать код в твоём репозитории на твоём компе, запускать, проверять компиляцию тесты итд, то есть итеративно работать. И далее попросил его сделать эту фичу. Совсем немного описал проблематику.

Спустя 4 минуты он прочитал весь необходимый код и составил план. Я особо не вчитывался и говорю: ну действуй, я не знаю.

Спустя другие 4 минуты он реализовал этот код. Я прихожу, запускаю, проверяю фичу и оно работает с первого раза...

Честно, я офигел что этот Codex смог разобраться в моей кривой архитектуре, без тестов, без документации. И реализовал нетривиальную фичу которая работает с первого раза...

Кто хочет посмотреть на код и промт, добро пожаловать сюда: https://github.com/optozorax/portal/commit/69fbbfb926b446040ef48af8f08742ce091a8a81

Мы реально в будущем, друзья.

❤84🔥22👍11🤯9😭5💔2❤‍🔥1🥰1🆒1

5.36K viewsedited 02:51

Ещё более впечатляющие способности Codex.

В последнее время я стал его очень активно использовать в своей новой программе (/818) для кодинга относительно простых или сложных фич. Меня каждый раз поражает как он способен с нуля разбираться в моей кодовой базе (хоть в этот раз она намного лучше Portal Explorer).

Поэтому я решил натравить его на чужую кодовую базу. В Audacity есть одна фича, которая очень бесит: когда двигаешь мышкой с зажатой левой клавишей по таймлайну, то начинает строиться какая-то петля, и она проигрывается. Очень бесит, потому что в программах для монтажа точно такое же действие просто проигрывает аудио со скоростью движения мыши. И причём в audacity выключить текущее поведение нельзя, петля всегда будет создаваться. А я хочу чтобы менялась голова текущего положения на таймлайне (про проигрывание молчу, видимо это слишком сложно сделать).

Так как у Audacity открытый исходный код, я решил попробовать изменить это поведение. Создаю пустую папку и говорю codex'у склонировать этот репозиторий, затем заставить его компилироваться, и затем сделать эту фичу. Описал фичу только высокоуровнево, я даже не смотрел на этот код.

Он долго пыхтел, но кое-как заставил это компилироваться (что уже бесконечно полезно для любого человека, кто контрибьютит в опен-сорс, не надо тратить на это целый день), а затем сделал фичу, изменив один файлик.

Я просто пушу коммит в github, и там запускается автоматическая сборка бинаря для винды через CI (а codex у меня живёт под WSL). Я жду её, скачиваю, и вижу что в целом фича работает как нужно, но петля всё ещё создаётся. Я предложил кодексу вообще нафиг удалить её, так как мне она не нужна.

Он сделал, и на вторую итерацию я имею бинарь audacity, который имеет нужный мне функционал. И я даже ни разу не смотрел на код, только высокоуровнево описывал что нужно сделать.

Лично у меня просто на компиляцию ушёл бы может день или несколько часов, а затем на то чтобы разобраться в чужой огромнейшей кодовой базе не меньше. И ещё думать как добавить туда фичу. А эта нейронка видимо воспринимает код как свою вторую натуру, она видит стену текста и сразу понимает кучу связей в ней, за счёт чего может выплёвывать куски кода очень быстро и легко.

И это меня и поражает. Сейчас каждый способен немного изменить почти любой open-source софт под себя просто используя этого агента. И это только в 2025, я не могу представить что будет через 5-10 лет...

Если кому интересно, то вот список коммитов что сделал codex: https://github.com/optozorax/audacity/commits/audacity3/

👍66🔥20❤15🥰2👏1😁1🤡1🆒1💊1

4.65K viewsedited 23:51

This media is not supported in your browser

VIEW IN TELEGRAM

А вот так выглядит четырёхмерная фигура под названием 120-cell.

Это аналог нашего трёхмерного додекаэдра, который состоит из пятиугольников. Только эта фигура состоит из 120 додекаэдров.

3🔥102❤14👍8🤯6🥰5😱4🆒3💘2

5.19K views14:24

Вышла новая версия Gemini, которая умеет генерить картинки прямо в виде токенов, нативно (ну то есть одна модель понимает картинку и генерит картинку, а не как у OpenAI, когда ChatGPT пишет промт для Dalle) (инфа). Ну и я попросил её сгенерировать что будет…

Тестирую на новой Nano Banana Pro, которая вышла буквально вчера. Это самая мощная модель для генерации картинок в мире. Подаю всё точно так же. И она пока тоже не справляется. Вот 5 разных генераций.

❤‍🔥55👍8🔥8🥰2✍1🆒1💘1

5.34K viewsedited 23:30

А вот в чём Nano Banana Pro невероятно хороша, так это в генерации картинок с большим количеством деталей. Например, я попросил её визуализировать коротенькую статью про мою шкалу оценки: 5-бальная шкала оценки неверна. Прочитайте, если не видели.

Просто вставил статью в промт и сказал сделать инфографику по ней. Вот результат, 6 разных картинок. Последнюю генерил с другим промтом, чтобы выглядело красивищно просто.

Какая картинка по вашему самая лучшая?

🔥96😍8❤7🤯2👎1🥰1🆒1

9.24K views23:41