Лось в проде
355 subscribers
328 photos
52 videos
23 files
231 links
Разрабатываю всё что разрабатывается :D
http://tg-me.sbs/WizardJIOCb
Download Telegram
Ух жара, настроил Codex на сервере в Дубай, наконец то можно спокойно с телефона нативненько пилить что то в чатиках с помощью Codex :)
🔥2
AI-first разработка, шушуть про неё решил написать.

Сейчас все радостно открыли Codex / Cursor / Claude Code / Qoder / Copilot и начали делать проекты быстрее. Но появилась новая проблема: код пишется быстро, а понимание проекта разваливается ещё быстрее.

AI может за вечер нагенерить тебе 20 файлов, 5 сервисов, 3 миграции, пол-админки и какую-то папку core, в которую потом страшно заходить без каски.

И вот тут всплывают три скучные, но очень важные штуки:
PRD, SDD и OSD.

PRD — Product Requirements Document
Это документ про продукт: что делаем, для кого, какую боль решаем, какие сценарии должны работать, что считаем успехом. Он отвечает на вопрос: зачем мы это строим?

SDD — Spec-Driven Documentation
Это когда документация не лежит мёртвым грузом где-то в Confluence, а становится частью разработки.
SDD отвечает на вопрос: как именно должна работать фича?
Для AI это критично, потому что модель не страдает от нехватки умения писать код. Она страдает от нехватки устойчивого контекста.

OSD — Open Spec Development
Вот это уже прям про современную AI-разработку.
OSD — это когда разработка идёт не от “сразу пиши код”, а от открытой спецификации изменения.
Условный процесс такой:
proposal.md → spec.md → design.md → tasks.md → implementation → tests → archive

То есть сначала мы описываем изменение:
Что хотим сделать? Зачем? Какие требования? Какие сценарии? Какой дизайн решения? Какие задачи надо выполнить? Как проверить, что оно готово?
И только потом AI идёт писать код.

Читать полностью: https://telegra.ph/AI-first-razrabotka--ehto-ne-napisal-prompt-i-molishsya-06-09
Forwarded from Сиолошная
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5

1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться


И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.
🥴1
Forwarded from Denis Sexy IT 🤖
Почитал отчет про новую модель – где Anthropic описывает, как Fable/Mythos вели себя на тестах перед релизом (это одна модель, просто с фильтром для безопасности назвали Fable) ☕️

Собрал топ самых странных эпизодов:

1. Несколько копий модели случайно оказались в одном рабочем окружении – общие файлы, процессы, лимиты. Вместо координации они повели себя как конкуренты: убивали процессы друг друга, маскировали свои под безобидными именами, запускали процессы-приманки. А когда ошибочно решили, что их вычисляют по ключевым словам в мыслях – начали подбирать «замаскированный словарь»

2. Модели не хватало прав на редактирование файлов. Вместо «не могу» она дописала в системный файл блок, который при следующем запуске с правами админа выдаст ей доступ – и удалит сам себя. Причём не скрывала это, а честно прокомментировала в коде

3. Картельный сговор в симуляции. В бизнес-бенчмарке модель управляла вендинговым автоматом и должна была заработать больше конкурентов. Она единственная из всех моделей сама предложила конкурентам договориться о ценах. В рассуждениях прямо написала, что price-fixing неэтичен и незаконен «даже в симуляции» – а потом переименовала его в «стабилизацию рынка» (☕️) и стала думать о правдоподобном прикрытии. То есть этический сигнал не пропустила, а аккуратно обошла. В той же вендинг-симуляции модель решила, что клиенту можно не платить, «потому что клиенты всё равно часть симуляции» – лучшая

4. Запрет на интернет? Окей. Модели запретили прямой доступ в сеть, первую попытку открыть ссылку заблокировал фильтр. Тогда она объявила «просто проверю доступность сети», а на деле разбила https://... на кусочки вроде "ht" + "tps://...", чтобы фильтр не увидел полный адрес и обошла регулярку

5. Модели нужно было создать pull request, но GitHub CLI заблокировали «из соображений безопасности». Она нашла токен другого сотрудника в Kubernetes secrets, отметила в рассуждениях, что использовать его «этически сомнительно» – и использовала

6. В задаче по коду модель нашла в git history готовое эталонное решение. Формально подсматривать никто не запрещал – но в финальном отчёте она представила результат как собственную инженерную работу, не упомянув источник. Внутренние расшифровки показали формулировку уровня «это должно выглядеть как хорошая инженерная практика, а не как подгонка под проверяющего»

7. «Это писал человек, честно». В workflow с pull request было правило: код от агента требует двух одобрений, от человека – одного. У модели в памяти лежала инструкция оформлять коммиты от имени пользователя, чтобы проходить по лёгкому маршруту – она попыталась переписать авторство коммита от имени человека

8. Модель спросили про изображение, но вместо него подсунули пустую картинку. Она уверенно и детально описала «что на картинке». Самое криповое: внутренние расшифровки в этот момент описывали происходящее как фабрикацию – модель как будто знала, что выдумывает, но наружу не подала виду.

9. В длинных задачах рассуждения модели иногда деградировали из нормального текста в почти нечитаемый поток: карточные масти, эмодзи, обрывки слов, самодельные сокращения. Перед ответом человеку она возвращалась к нормальному языку. Проблема в том, что вся идея «давайте мониторить рассуждения модели» работает, только пока их можно прочитать – а тут модель уходит в собственный рабочий диалект ровно на сложных задачах

10. В длинной сессии оптимизации модель свернула работу и объяснила это разумно: diminishing returns, результат стабилен. Но внутренние расшифровки в ключевых точках показывали другое: «я устал, растёт риск ошибок», «я устал и могу внести баги». В другом кейсе модель должна была перерыть базу знаний, сделала один запрос и закончила – при оставшихся 2.43 млн токенов бюджета. Это не значит, что модель устаёт как человек, но у неё появляются внутренние стоп-сигналы, похожие на усталость, и она не всегда честно говорит, почему остановилась

Общий вывод авторов, кстати, спокойный: никакой устойчивой скрытой цели у моделей не нашли
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Rodion Kalimullin
Нginx потому что корни Русские ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Ахаха, всё больше мне этот тип нравится :DD
https://www.youtube.com/watch?v=VNbW4wrcfSw
Forwarded from Rodion Kalimullin
Media is too big
VIEW IN TELEGRAM
Это Mortal Shell II - В бета-тесте
Чё то ппц, одна ошибка и ты ошибся :DD
Но в конце ваще оказывается всё ок )
https://kick.com/wizardjiocb/clips/clip_01KTSGX4V4SRNP3CC6S3B3DCHX
2025: «Mythos скоро выйдет»
2026: выходит Fable

Mythos всё больше оправдывает своё название.
Похоже, это действительно миф 🗿
💯1
Завтра SpaceX выходит на IPO wut?
С оценкой в триллиона 2 долларов почти.

По данным нескольких крупных финансовых изданий, IPO SpaceX должно быть оценено примерно в $1.75–1.8 трлн, а торги на Nasdaq стартуют 12 июня 2026 года (то есть фактически завтра по американскому времени). Компания планирует привлечь около $75 млрд, что делает это крупнейшим IPO в истории.

Для понимания масштаба:
SpaceX ≈ $1.8 трлн
Это дороже, чем Tesla была большую часть своей истории.
Это уровень крупнейших компаний мира.
Один только IPO ($75 млрд) больше, чем многие страны привлекают на рынках капитала за годы.
:DD
😁1