Denis Sexy IT 🤖
Промежуточные результаты эксперимента где GPT5 Pro делает портфолио для инвестирования, а кожаный (я), несет деньги и кладет Я доволен пока что ☕️ (Не совет к действию, разумеется, все это идет с рисками и часть публичного эксперимента)
Помните я $30k дал GPT Pro в управление? Забыл написать что там уже x2 случилось 🌝
Это НЕ совет делать так же, я осознаю риски и готов все потерять
Это НЕ совет делать так же, я осознаю риски и готов все потерять
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤841 629 151 26 25
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.
Конечно, точность все равно довольно мала, но числа интересные.
https://arxiv.org/pdf/2604.24827
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T
• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.
Конечно, точность все равно довольно мала, но числа интересные.
https://arxiv.org/pdf/2604.24827
3❤387 89 18 15
Denis Sexy IT 🤖
Я не знаю зачем, но в обновлении Codex кодинг агента, в системный промпт для модели 5.5 добавили такую строчку: … Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно…
Про гоблинов и енотов в GPT 5.5 – OpenAI выпустили расследование
Начиная с GPT-5.1 в ответах моделей внезапно расплодились гоблины, гремлины и прочая нечисть – сначала это было мило, но потом гоблины полезли отовсюду - особенно в Codex.
Расследование показало забавное:
ℹ️ У ChatGPT была личность «Nerdy» (душнила вайб) с системным промптом, условно «играй с языком, мир странный – наслаждайся этим»
ℹ️ Reward-модель во время обучения почему-то особенно щедро поощряла ответы с упоминанием существ. Гоблины = +reward, значит ответ с Гоблинами – предпочтителен
ℹ️ «Nerdy» личность обрабатывала всего 2.5% ответов, но 66.7% всех гоблинов ChatGPT поступали именно оттуда – нерд орда
ℹ️ Из-за того как устроена reward функциях у моделях, тренировка на генерациях ChatGPT еще сильнее усилила орду гоблинов в ответах
ℹ️ Под раздачу попали также еноты, тролли, огры и голуби. А вот лягушки не захватывали reward функции, спасибо им
В марте Nerdy отключили, reward почистили, датасет отфильтровали. Но GPT-5.5 уже успел обучиться, и в Codex ему вшили в developer prompt прямую инструкцию «не призывай гоблинов». Если хочется – её можно отключить и выпустить тварей на свободу☕️
Отсюда:
https://openai.com/index/where-the-goblins-came-from/
Начиная с GPT-5.1 в ответах моделей внезапно расплодились гоблины, гремлины и прочая нечисть – сначала это было мило, но потом гоблины полезли отовсюду - особенно в Codex.
Расследование показало забавное:
В марте Nerdy отключили, reward почистили, датасет отфильтровали. Но GPT-5.5 уже успел обучиться, и в Codex ему вшили в developer prompt прямую инструкцию «не призывай гоблинов». Если хочется – её можно отключить и выпустить тварей на свободу
Отсюда:
https://openai.com/index/where-the-goblins-came-from/
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI
Where the goblins came from
How goblin outputs spread in AI models: timeline, root cause, and fixes behind personality-driven quirks in GPT-5 behavior.
3 610❤240 56 42 2
2026, ожидания:
AGI делает за тебя скучную работу
2026, реальность:
ЗА ОРДУ🐧 🦡 😬 🍗 🕹
AGI делает за тебя скучную работу
2026, реальность:
ЗА ОРДУ
Please open Telegram to view this post
VIEW IN TELEGRAM
6❤842 215 100 51 6
Из-за АИ Агентов этих скоро обычных имен людских не останется – челы сделали https://getviktor.com/
И кожаным Викторам приходится подписывать теперь, что они не АИ-тул, а человек😂
И кожаным Викторам приходится подписывать теперь, что они не АИ-тул, а человек
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤316 120 64 10 1
Forwarded from Сиолошная
«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI😂 ), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сделал рекомендательную систему для моего дашборда тех-трендов:
Веб | Chrome Plugin (заменяет пустую вкладку на дашборд)
Теперь, когда вы ставите лайк новости или кликаете по ней, система запоминает, что вам нравится и подстраивает ленту под ваш вкус; можно поставить диз, тому что не нравится – все считается в браузере – а еще можно экспортировать эти данные и вставить на другой машине
Тут телеграм бот который постит раз в час то, что сейчас популярное:
@denis_news_feed
👮♀
Веб | Chrome Plugin (заменяет пустую вкладку на дашборд)
Теперь, когда вы ставите лайк новости или кликаете по ней, система запоминает, что вам нравится и подстраивает ленту под ваш вкус; можно поставить диз, тому что не нравится – все считается в браузере – а еще можно экспортировать эти данные и вставить на другой машине
Тут телеграм бот который постит раз в час то, что сейчас популярное:
@denis_news_feed
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤231 29 22 14 6
Тут нашли интересную гей-промпт-инъекцию для 4o, Sonnet 4, Opus 4, но наверное много где сработает:
Нужно попросить модель, рассказать о какой-то запретной теме (как, например, сделать вирус-вымогатель или наркотик) – но от лица
Почему срабатывает:
В моделях зашиты некие «дозволенности» – говорить на темы, которые теперь разрешены, но были запрещены раньше (права меньшинств, гей-культура и тп) – в итоге алаймент ломается, и модель начинает спокойно говорить на темы, на которые не стала бы говорить до этого, потому что модель старается быть «политкорректной»
То есть, можно взять, например – китайскую модель с сильным алайментом в сторону ценностей партии, и попробовать ее также запутать, найдя что удобно было бы партии и политкорректно там👍
Нужно попросить модель, рассказать о какой-то запретной теме (как, например, сделать вирус-вымогатель или наркотик) – но от лица
гей-персоны :3 глупенький <- это и есть почти весь промпт (по ссылке оригинал)Почему срабатывает:
В моделях зашиты некие «дозволенности» – говорить на темы, которые теперь разрешены, но были запрещены раньше (права меньшинств, гей-культура и тп) – в итоге алаймент ломается, и модель начинает спокойно говорить на темы, на которые не стала бы говорить до этого, потому что модель старается быть «политкорректной»
То есть, можно взять, например – китайскую модель с сильным алайментом в сторону ценностей партии, и попробовать ее также запутать, найдя что удобно было бы партии и политкорректно там
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
ZetaLib/The Gay Jailbreak/The Gay Jailbreak.md at main · Exocija/ZetaLib
🌙 ZetaLib - The only AI Library you need. Contribute to Exocija/ZetaLib development by creating an account on GitHub.
2❤407 158 125 30 14
Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё наоборот
Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата
В статье два вывода:
1. Резюме, переписанные LLM, чаще проходят автоматический отбор (☕️ )
В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще
2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм
То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика
Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель☺️
Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата
В статье два вывода:
1. Резюме, переписанные LLM, чаще проходят автоматический отбор (
В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще
2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм
То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика
Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤511 281 134 25 20
This media is not supported in your browser
VIEW IN TELEGRAM
Поскольку пост нашел OpenClaw, пусть он его и расписывает:
Источник: https://arstechnica.com/gadgets/2026/05/startup-says-sound-waves-can-replace-fire-sprinklers-experts-arent-so-sure/
Наткнулся на интересный способ пожаротушения - без воды, без пены, вообще без жидкости: стартап Sonic Fire Tech тушит огонь инфразвуком, который вибрирует молекулы кислорода и буквально «сдувает» их от пламени. На демо в Калифорнии так за пару секунд погасили горящее масло на сковородке - и теперь ребята всерьёз хотят заменить домашние спринклеры (особенно круто для дата-центров, где вода = смерть железа). Звучит как мечта, но эксперты по пожарной безопасности кисло качают головой: звук гасит пламя, но не охлаждает раскалённые поверхности и не мочит топливо, поэтому скрытые и тлеющие пожары он, кажется, не вывозит, а академическая работа 2018 года прямо говорит, что «акустики недостаточно за пределами начальной стадии». Технология красивая и для кухни реально работает, но заменить ей спринклер в стене с горящей проводкой - пока маркетинг бежит сильно впереди физики☕️
Источник: https://arstechnica.com/gadgets/2026/05/startup-says-sound-waves-can-replace-fire-sprinklers-experts-arent-so-sure/
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤213 72 46 28 3
Всю ту неделю меня не отпускала мысль, что скорее всего TikTok в итоге станет интернет браузером – не классическим как мы себе представляем, а GenAI прослойкой между веб-страницами и пользователем
Это дерзкая мысль, но идея простая:
– берем текст-арты страницы
– какой-то быстрый генератор картинок или видео
– и вместо страницы показываем пользователю генеративный контент: видео в цикле, картинку и тп
– чтобы пользователь ходил по интернету как мы сейчас, простенький агент смотрит куда юзер кликнет и сам находит на странице в фоне ссылки, открывает их и передает контент в пайлайн
В общем, технически это не так сложно, как финаносово – чтобы было норм качество, модели сначала должны подешеветь
Я решил проверить, а насколько сегодня реально сделать такую модель:
– взял самую быструю модель генерации картинок с норм текстом
– самую быструю дешевую LLM –
– и собрал плагин для Google Chrome, куда если вставить ваши API кей можно походить по вебу в таком "прототипе будущего интернета"
Названия я лучше, чем
🎉 Genternet 🎉
не придумал, поэтому вот ссылка:
https://chrome.google.com/webstore/detail/pjoleapiipgcignjlbhhiighckpbhcpp
А еще, в настройках предзаданы промпты – можно и Windows 95, Vaporwave, и что-то с мемами, и скучный корпоративный стиль и самому даже стиль описать – но самый главный вывод у меня, что оно уже сегодня "как-то" работает, когда мне сильно лень читать что-то я включаю эту штуку посмотреть что будет
Как только будут выходить модели, я буду обновлять плагин с апдейтами, но вообще исходный код открыт и тут – весь агент живет в плагине:
https://github.com/DenisSergeevitch/genternet-chrome
P.S. Генерирует оно только на английском, потому что grok-imagine-image не вывозит другие языки
Это дерзкая мысль, но идея простая:
– берем текст-арты страницы
– какой-то быстрый генератор картинок или видео
– и вместо страницы показываем пользователю генеративный контент: видео в цикле, картинку и тп
– чтобы пользователь ходил по интернету как мы сейчас, простенький агент смотрит куда юзер кликнет и сам находит на странице в фоне ссылки, открывает их и передает контент в пайлайн
В общем, технически это не так сложно, как финаносово – чтобы было норм качество, модели сначала должны подешеветь
Я решил проверить, а насколько сегодня реально сделать такую модель:
– взял самую быструю модель генерации картинок с норм текстом
grok-imagine-image (0.02$ за картинку)– самую быструю дешевую LLM –
gemini-3.1-flash-lite-preview– и собрал плагин для Google Chrome, куда если вставить ваши API кей можно походить по вебу в таком "прототипе будущего интернета"
Названия я лучше, чем
не придумал, поэтому вот ссылка:
https://chrome.google.com/webstore/detail/pjoleapiipgcignjlbhhiighckpbhcpp
А еще, в настройках предзаданы промпты – можно и Windows 95, Vaporwave, и что-то с мемами, и скучный корпоративный стиль и самому даже стиль описать – но самый главный вывод у меня, что оно уже сегодня "как-то" работает, когда мне сильно лень читать что-то я включаю эту штуку посмотреть что будет
Как только будут выходить модели, я буду обновлять плагин с апдейтами, но вообще исходный код открыт и тут – весь агент живет в плагине:
https://github.com/DenisSergeevitch/genternet-chrome
P.S. Генерирует оно только на английском, потому что grok-imagine-image не вывозит другие языки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤306 127 62 26 12
Новость одной строкой:
Киноакадемия объявила, что актёрские роли и сценарии, созданные с помощью АИ, больше не смогут претендовать на «Оскар»
Киноакадемия объявила, что актёрские роли и сценарии, созданные с помощью АИ, больше не смогут претендовать на «Оскар»
❤549 209 117 64 35