ИИволюция 👾
11.5K subscribers
947 photos
369 videos
1 file
816 links
Авторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI.

По всем вопросам: @pakhandrin
РКН: https://clck.ru/3QJLiL

В ВП и папках не участвую
Download Telegram
В Claude Code завезли прикольную стату о ваших тратах токенов

Вызывается командой /stats, но только в самом свежем Claude Code (обновитесь!)

Доступно 2 режима: обзор за 12 месяцев с общими данными и раздел Models с информацией за последние 30 дней с разбивкой трат токенов по моделям. Опять же не понятно, как он считает всю инфу в overview. Например, моя самая длинная сессия 3д 3ч и 12мин, но это видимо Warp удерживает сессию (или как оно считается, не понимаю). И мой самый длинный стрик 6 дней, тут вероятно ок, отдыхать тоже нужно на выходных 😃

У меня: You've used ~43x more tokens than Harry Potter and the Philosopher's Stone (хм, хотя эта фраза каждый раз новая после захода в раздел Overview)

Показывайте свои скрины, найдем самого прожорливого среди нас 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4
GPT-5.2 – когда “код красный” оправдал себя

OpenAI выпустила GPT-5.2. И если предыдущие обновления были скорее эволюцией, то здесь чувствуется попытка выровнять позицию компании на фоне Opus 4.5 и Gemini 3 Pro. Внутри OpenAI, по разным данным, действительно включали “code red” на полную катушку, так что релиз явно готовился с целью “войти в дверь с пинка”.

GPT-5.2 меньше спотыкается на длинных задачах, тянет больше контекста и лучше внимание на длинном контексте, “аккуратнее” работает с кодом и инструментами, и в целом ведёт себя стабильнее. Именно эта стабильность и важна, потому что она напрямую влияет на то как мы используем AI в своих рабочих процессах.

Теперь по порядку что изменилось:

– В задачах GDPval (это когда модель решает реальные рабочие кейсы вроде анализа документов, таблиц, презентаций) GPT-5.2 Thinking показывает результаты на уровне и выше человеческого эксперта.

– На AIME 2025 модель впервые дала 100% правильных решений без инструментов. У 5.1 было около 94%, так что прирост чувствуется. Это не про красивые циферки. GPT-5.2 значительно реже ошибается в многошаговых расчётах и строгой логике.

– Переходим к коду. Здесь значительный и важный скачок. На SWE-Bench Pro модель поднимается до 55.6%, а на SWE-bench Verified до 80%. Opus 4.5 пока незначительно опережает (80.9%), но Gemini 3 Pro остался позади со своими 76%.

– В тестах MRCRv2 (ищем “иголку” в длинном контексте) GPT-5.2 почти не ошибается. Для больших проектов это критично: можно загружать длинные документы, протоколы, спецификации и не переживать что модель потеряет нить.

– Визуальное понимание. Ошибки на графиках, диаграммах и интерфейсах уменьшились примерно вдвое. Если вы работаете с UI, аналитикой или комбинированными данными — модель перестала «путать» элементы и их логику.

– Инструменты и агенты. Точность tool-calling в длинных цепочках выросла до ~98.7% (было 95.6 % у GPT-5.1). В реальности это означает меньше провалов в середине цепочки и более предсказуемую работу при автоматизации. Можно строить более стабильные многошаговые сценарии.

– Режимы работы: Instant, Thinking и Pro, тут всё привычно.

– По сложному reasoning картина стала яснее после ARC-AGI-2. У GPT-5.1 там было 17.6 %, у GPT-5.2 — уже 52.9 %, а версия Pro поднимается до 54.2 %. Это выводит GPT-5.2 вперёд и Opus 4.5, и Gemini 3 Pro именно в абстрактных задачах рассуждений, где требуется нестандартная логика и многошаговые решения.

– Opus 4.5 остаётся одним из лучших в коде (но нужно еще пощупать, посравнивать с GPT-5.2, его уже завезли во все AI IDE). Gemini 3 Pro всё ещё силён в мультимодальности. Восприятие изображений, сложных визуальных структур и сценариев у Google работает очень уверенно.

– Стоимость: ценник на 5.2 немного подрос по сравнению с 5.1.

– Рынок в целом оценивает релиз положительно. Хотя было много скепсиса на счет возможностей OpenAI, но время покажет. Ждем теперь ответочку от конкурентов, и так по кругу.

Детали о релизе: https://openai.com/index/introducing-gpt-5-2/
🔥2110👍7🤣1
В новом Claude Code CLI теперь всегда на виду остаток контекста

Через слеш команду /statusline можно под себя настроить отображение всяких полезных показателей, но теперь можно добавить и отображение прогресс бара контекста!

Кстати, статусная строка реально настраивается легко, просто словами описываем в каком виде, какие цвета для каких данных, даже дизайн можно описать. Если еще не используете это, настоятельно советую, а теперь еще и заполненность контекста на виду.

Из прикольных настроек:
Можно попросить добавить погоду, или курс валюты/крипты, или помодоро таймер, чтобы не забывать отдыхать. Что из необычного вы себе добавляли? (если уже статусной строкой активно пользуетесь)

Вот это супер полезное обновление 🥰
14👍9🔥7
Я перепробовал почти все форматы девайсов которые помогают трекать тело: часы, кольца, браслеты. Трекал все: сон, пульс, шаги, нагрузку и кучу других показателей.

Но мой главный запрос остается нерешенным, хочется понять, каким образом возможно сбить тревожный шум и свести мой раздувшийся FOMO к нулю.

Недавно начал эксперимент с новым гаджетом, который должен помочь погрузиться в процессы мозговой деятелности глубже привычных показателей.

Пока не тороплюсь делать выводы, как только будут получены первые результаты обязательно поделюсь с вами.
👍14🔥93
А кто-нибудь в итоге пересел на браузер Atlas от OpenAI?

Они как будто бы подзабили на него после релиза. А смысл какой тогда был в нём? Я конечно ожидал большего внимания к нему со стороны создателей 😏

В итоге, ничего лучше Arc пока для себя не нашел как постоянного браузера на десктопе.
7👍4
В Твиттере в последние дни много пишут, что заметили как Opus 4.5 «отупел» и ему подрезали крылышки.

Кто-то даже готов отдавать $1к/мес за подписку, если модели будут всегда на максималках как после релизов.

Представители Anthropic в реплаях пишут, что они ничего не урезали и хотели бы разобраться что именно не так.

А вы заметили деградацию опуса в последние дни? Или всё норм и вайб на максималках? Я на своих задачах такого не заметил 🤔
7🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустила новую модель для генерации изображений ChatGPT Images

TLDR: Обновление сильное если сравнивать предыдущую модель генерации изображений в ChatGPT, но если сравнивать с конкурентами, не удивляет.

Модель называется gpt-image-1.5

Что нового:

– Лучше следует инструкциям.
– Сохраняет детали при генерации детали.
– Можно указать области на фото, в которых нужно внести изменения. Например, если нужно что-то подредактировать точечно.
– Быстрее в 4х раза чем предыдущая модель.
– Доступно в API.

В целом, обновление давно напрашивалось. Изменения для генерации изображений в ChatGPT конечно сильно заметны, но в сравнении с моделями конкурентов, не уверен, что удалось их перепрыгнуть.

Полистал твиттеры, посмотрел арены (к моему удивлению, люди голосуют больше за gpt-image-1.5 чем нано банану). Мнения разделились. В общем, каждый решает сам и всё зависит от ваших запросов на генерацию (что вы от неё ожидаете). У части спецов это обновление не вызовет никаких эмоций, а для масс маркета обновление точно зайдет (те, кто сидит только в чатгпт).

P.S. Скину в комменты для примера генерации в chatgpt images и nano banana
9🔥3👍2🤔1
Кажется, сегодня ждем релиз Gemini 3.0 Flash ⚡️⚡️⚡️
🔥22👍1
Gemini 3.0 Flash

Шок! Модель на уровне Gemini 3.0 Pro (по MMMU-Pro), при этом быстрее и дешевле!

Как после таких релизов конкуренты перед новым годом могут оправиться? Гугл перекрывает любые релизы своими козырями.

Детали: https://blog.google/products/gemini/gemini-3-flash/
🔥19
Теперь, видимо, где-то на горизонте ждать Sonnet 4.7?

Или не в 2025? А то слухи разные ходят, вдруг удивят к праздникам!
10
OpenAI выкатила свой App Store в ChatGPT

Приложения доступны в отдельном разделе Apps на вебе и в приложении. Пока в списках приложения крупных компаний, есть даже музыкальные стриминги, можно в чатике писать что хотелось бы послушать и он найдет нужные треки и включит. Забавно!

Apps были представлены еще в октябре. Информация по Apps SDK и как создать своё приложение для ChatGPT https://developers.openai.com/apps-sdk

Гайд как подключить монетизацию в приложениях: https://developers.openai.com/apps-sdk/build/monetization/
🔥184👍3
Достала проблема мерцания в Claude Code CLI?

Все, кто использует Claude Code CLI не раз сталкивались, когда весь терминал начинает мерцать и не понятно, что там происходит. Бывало же?

Anthropic радостно сообщает, что они победили эту проблему (но не на 100%), но снизили на магические 85% частоту появления мерцания. Суть проблемы в том, что в терминалах даже при изменении небольшого элемента, приходится перерисовывать всю видимую область и еще область за скроллом. А так как Claude Code CLI генерирует много информции и область за скроллом постоянно растет, то перерисовывать приходится много всего. И это происходит много раз в секунду.

Они переписали свой рендер в терминале и теперь полная перерисовка будет происходит только когда действительно нужно, а в основном обновляться будут отдельные строки и элементы.

Детали можно прочитать тут: https://github.com/anthropics/claude-code/issues/769#issuecomment-3667315590
5🔥3👍2
Обновление браузера Atlas от OpenAI

Только на днях обсуждали, что Atlas как будто подзабросили (скорее временно из-за “код красный”), как сегодня вышло обновление и оно достойно внимания.

Главное изменение: добавили мультипрофили! Теперь можно разграничить рабочие пространства: вкладки, хранение паролей (работа, личное и т.п.).

Все профили привязаны к одной учетной записи ChatGPT. Обещают сделать и множественные учетные записи.

А еще обещают после праздников выкатить группировку табов (хотя лично я этим редко пользуюсь в том же Arc браузере).

Потестировал обновленные Атлас, боковая панель есть, но переключение профилей создает еще отдельное окно (по мне так странный UX), само переключение профиля это 2 клика (почему бы не вывести все профили снизу в виде иконок для быстрого переключения). Временных табов нет, через сутки сами не вычищаются. В общем, сильно я прикипел к Arc браузеру, но Атлас возможно сможет перенять все его фишки постепенно.

А еще пугает, что если вдруг вашу ChatGPT учетку забанят (а таких случаев много), то что тогда с учеткой в браузере? Всё потеряно? Этот момент меня пока смущает.

Подробнее про обновление Atlas: https://help.openai.com/en/articles/12591856-chatgpt-atlas-release-notes
🔥8👍43
Вышла модель GPT-5.2-Codex

Лучше, быстрее, умнее” – фраза, которая подходит для каждого релиза! Другого мы явно и не ждём в разработке, а модель конечно же оптимизирована под разработку.

Полное описание релиза https://openai.com/ru-RU/index/introducing-gpt-5-2-codex/
1👍11
Спишь? Или вайб-кодишь? 👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻25🤣18👍9🍓32🔥2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
Пасхалочка в ChatGPT

Отправьте в новом чате эмодзи 🎁 и получите персональный сюрприз.

Чат просит в ответ прислать селфи, и после этого запускается генерация видео в Sora, для контекста учитывается история ваших чатов.
1🔥275
Если вы фанат Codex для разработки, то этот промпт-хак может быть полезен.

Он позволяет запускать Codex на более длительную и автономную работу над большими задачами и не сбиваться с цели.

Мне всегда слабо верится, что все эти хаки на выходе дают сравнимый по качеству результат от агентной разработки по сравнению с короткими сессиями с удержанием длины контекста, четким планом каждой сессии.

В твиттере часто показывают скрины в духе “мой агент работал 20 часов без остановки и сделал с нуля весь продукт”.

Но этот промпт поддержал сам Грег Брокман, так что делюсь с вами. Нужно добавить этот промпт в начало AGENTS.md:

## Continuity Ledger (compaction-safe)
Maintain a single Continuity Ledger for this workspace in `CONTINUITY.md`. The ledger is the canonical session briefing designed to survive context compaction; do not rely on earlier chat text unless it’s reflected in the ledger.

### How it works
- At the start of every assistant turn: read `CONTINUITY.md`, update it to reflect the latest goal/constraints/decisions/state, then proceed with the work.
- Update `CONTINUITY.md` again whenever any of these change: goal, constraints/assumptions, key decisions, progress state (Done/Now/Next), or important tool outcomes.
- Keep it short and stable: facts only, no transcripts. Prefer bullets. Mark uncertainty as `UNCONFIRMED` (never guess).
- If you notice missing recall or a compaction/summary event: refresh/rebuild the ledger from visible context, mark gaps `UNCONFIRMED`, ask up to 1–3 targeted questions, then continue.

### `functions.update_plan` vs the Ledger
- `functions.update_plan` is for short-term execution scaffolding while you work (a small 3–7 step plan with pending/in_progress/completed).
- `CONTINUITY.md` is for long-running continuity across compaction (the “what/why/current state”), not a step-by-step task list.
- Keep them consistent: when the plan or state changes, update the ledger at the intent/progress level (not every micro-step).

### In replies
- Begin with a brief “Ledger Snapshot” (Goal + Now/Next + Open Questions). Print the full ledger only when it materially changes or when the user asks.

### `CONTINUITY.md` format (keep headings)
- Goal (incl. success criteria):
- Constraints/Assumptions:
- Key decisions:
- State:
- Done:
- Now:
- Next:
- Open questions (UNCONFIRMED if needed):
- Working set (files/ids/commands):
11🔥7👍2