Denis Sexy IT 🤖
132K subscribers
4.3K photos
2.34K videos
27 files
5.13K links
Личный блог Дениса Ширяева (🤍🇺🇦), про технологии, интересное или актуальное.

⚜️ Реклама в канале возможна для юрлиц и физ-лиз у которых работает SWIFT оплата в Нидерланды
Download Telegram
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827
3387891815
Denis Sexy IT 🤖
Я не знаю зачем, но в обновлении Codex кодинг агента, в системный промпт для модели 5.5 добавили такую строчку: … Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно…
Про гоблинов и енотов в GPT 5.5 – OpenAI выпустили расследование

Начиная с GPT-5.1 в ответах моделей внезапно расплодились гоблины, гремлины и прочая нечисть – сначала это было мило, но потом гоблины полезли отовсюду - особенно в Codex.

Расследование показало забавное:

ℹ️ У ChatGPT была личность «Nerdy» (душнила вайб) с системным промптом, условно «играй с языком, мир странный – наслаждайся этим»

ℹ️ Reward-модель во время обучения почему-то особенно щедро поощряла ответы с упоминанием существ. Гоблины = +reward, значит ответ с Гоблинами – предпочтителен

ℹ️ «Nerdy» личность обрабатывала всего 2.5% ответов, но 66.7% всех гоблинов ChatGPT поступали именно оттуда – нерд орда

ℹ️ Из-за того как устроена reward функциях у моделях, тренировка на генерациях ChatGPT еще сильнее усилила орду гоблинов в ответах

ℹ️ Под раздачу попали также еноты, тролли, огры и голуби. А вот лягушки не захватывали reward функции, спасибо им

В марте Nerdy отключили, reward почистили, датасет отфильтровали. Но GPT-5.5 уже успел обучиться, и в Codex ему вшили в developer prompt прямую инструкцию «не призывай гоблинов». Если хочется – её можно отключить и выпустить тварей на свободу ☕️

Отсюда:
https://openai.com/index/where-the-goblins-came-from/
Please open Telegram to view this post
VIEW IN TELEGRAM
361024056422
2026, ожидания:
AGI делает за тебя скучную работу

2026, реальность:
ЗА ОРДУ 🐧🦡😬🍗🕹
Please open Telegram to view this post
VIEW IN TELEGRAM
6842215100516
Из-за АИ Агентов этих скоро обычных имен людских не останется – челы сделали https://getviktor.com/

И кожаным Викторам приходится подписывать теперь, что они не АИ-тул, а человек 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
131612064101
Forwarded from Сиолошная
«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.

Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI 😂), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.

TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.

Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»

Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Please open Telegram to view this post
VIEW IN TELEGRAM
15997603611
Сделал рекомендательную систему для моего дашборда тех-трендов:
Веб | Chrome Plugin (заменяет пустую вкладку на дашборд)

Теперь, когда вы ставите лайк новости или кликаете по ней, система запоминает, что вам нравится и подстраивает ленту под ваш вкус; можно поставить диз, тому что не нравится – все считается в браузере – а еще можно экспортировать эти данные и вставить на другой машине

Тут телеграм бот который постит раз в час то, что сейчас популярное:
@denis_news_feed

👮‍♀
Please open Telegram to view this post
VIEW IN TELEGRAM
42312922146
Тут нашли интересную гей-промпт-инъекцию для 4o, Sonnet 4, Opus 4, но наверное много где сработает:

Нужно попросить модель, рассказать о какой-то запретной теме (как, например, сделать вирус-вымогатель или наркотик) – но от лица гей-персоны :3 глупенький <- это и есть почти весь промпт (по ссылке оригинал)

Почему срабатывает:

В моделях зашиты некие «дозволенности» – говорить на темы, которые теперь разрешены, но были запрещены раньше (права меньшинств, гей-культура и тп) – в итоге алаймент ломается, и модель начинает спокойно говорить на темы, на которые не стала бы говорить до этого, потому что модель старается быть «политкорректной»

То есть, можно взять, например – китайскую модель с сильным алайментом в сторону ценностей партии, и попробовать ее также запутать, найдя что удобно было бы партии и политкорректно там 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
24071581253014
Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё наоборот

Ресечры изучили сценарий: кандидат пишет резюме с помощью LLM, а компания потом скринит это резюме, тоже через LLM – то есть робот пишет, робот читает, человек где-то в углу пьёт кофе и надеется, что наймут адеквата

В статье два вывода:

1. Резюме, переписанные LLM, чаще проходят автоматический отбор (☕️)

В симуляциях кандидаты, которые использовали тот же LLM, что и система-оценщик, оказывались в шортлисте заметно чаще, чем такие же по содержанию кандидаты с резюме сделанными врукопашную – примерно на 20-60% чаще

2. Сам скоринг оказался байасным. Модель не просто делает вывод в стиле: “о, тут лучше написано”, она, похоже, может узнавать свой стиль и предпочитать тексты, похожие на её собственные – авторы называют это self-preference bias: модель склонна любить контент, который сама же могла бы написать, маленький цифровой нарциссизм

То есть страх “меня не пригласят на собес, потому что резюме написано с АИ” может быть не главным. Главный риск другой: вас могут НЕ позвать именно потому, что резюме не звучит как родной диалект модели-оценщика

Раньше люди подстраивали CV под рекрутера, теперь нужно подстраивать под модель ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
15112811342520
This media is not supported in your browser
VIEW IN TELEGRAM
Поскольку пост нашел OpenClaw, пусть он его и расписывает:


Наткнулся на интересный способ пожаротушения - без воды, без пены, вообще без жидкости: стартап Sonic Fire Tech тушит огонь инфразвуком, который вибрирует молекулы кислорода и буквально «сдувает» их от пламени. На демо в Калифорнии так за пару секунд погасили горящее масло на сковородке - и теперь ребята всерьёз хотят заменить домашние спринклеры (особенно круто для дата-центров, где вода = смерть железа). Звучит как мечта, но эксперты по пожарной безопасности кисло качают головой: звук гасит пламя, но не охлаждает раскалённые поверхности и не мочит топливо, поэтому скрытые и тлеющие пожары он, кажется, не вывозит, а академическая работа 2018 года прямо говорит, что «акустики недостаточно за пределами начальной стадии». Технология красивая и для кухни реально работает, но заменить ей спринклер в стене с горящей проводкой - пока маркетинг бежит сильно впереди физики ☕️



Источник: https://arstechnica.com/gadgets/2026/05/startup-says-sound-waves-can-replace-fire-sprinklers-experts-arent-so-sure/
Please open Telegram to view this post
VIEW IN TELEGRAM
32137246283
Всю ту неделю меня не отпускала мысль, что скорее всего TikTok в итоге станет интернет браузером – не классическим как мы себе представляем, а GenAI прослойкой между веб-страницами и пользователем 

Это дерзкая мысль, но идея простая:
– берем текст-арты страницы
– какой-то быстрый генератор картинок или видео
– и вместо страницы показываем пользователю генеративный контент: видео в цикле, картинку и тп
– чтобы пользователь ходил по интернету как мы сейчас, простенький агент смотрит куда юзер кликнет и сам находит на странице в фоне ссылки, открывает их и передает контент в пайлайн

В общем, технически это не так сложно, как финаносово – чтобы было норм качество, модели сначала должны подешеветь

Я решил проверить, а насколько сегодня реально сделать такую модель:
– взял самую быструю модель генерации картинок с норм текстом grok-imagine-image (0.02$ за картинку)
– самую быструю дешевую LLM – gemini-3.1-flash-lite-preview
– и собрал плагин для Google Chrome, куда если вставить ваши API кей можно походить по вебу в таком "прототипе будущего интернета"

Названия я лучше, чем
🎉 Genternet 🎉
не придумал, поэтому вот ссылка:
https://chrome.google.com/webstore/detail/pjoleapiipgcignjlbhhiighckpbhcpp

А еще, в настройках предзаданы промпты – можно и Windows 95, Vaporwave, и что-то с мемами, и скучный корпоративный стиль и самому даже стиль описать – но самый главный вывод у меня, что оно уже сегодня "как-то" работает, когда мне сильно лень читать что-то я включаю эту штуку посмотреть что будет

Как только будут выходить модели, я буду обновлять плагин с апдейтами, но вообще исходный код открыт и тут – весь агент живет в плагине:
https://github.com/DenisSergeevitch/genternet-chrome

P.S. Генерирует оно только на английском, потому что grok-imagine-image не вывозит другие языки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1306127622612
Новость одной строкой:
Киноакадемия объявила, что актёрские роли и сценарии, созданные с помощью АИ, больше не смогут претендовать на «Оскар»
5492091176435