Статья: PDF на GitHub
Thinking with Visual Primitives, как следует из названия, обучает модели и думать, и выявлять объекты (примитивы). Вместо 100 слов — 5 картинок-примеров из статьи, от «посчитай людей на картинке» до «пройди лабиринт».
На выбранном наборе бенчмарков обходят GPT-5.4 и Gemini 3 Flash, при этом используя гораздо меньше токенов в контексте (=дешевле и быстрее для пользователя)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥169🤯33❤🔥22👍8🤔6👨💻3
Две новости:
— Anthropic начали обсуждения следующего раунда инвестиций; никаких бумаг пока не подписано, но компания рассматривает возможность привлечения капитала при оценке в $900B. Это чуть больше, чем у OpenAI в начале месяца ($852B). Наверное, где-то через месяц-полтора раунд закроют и объявят официально. Очень интересно будет посмотреть, какие компании вложатся, и войдут ли инвесторы с Ближнего Востока и суверенных фондов.
— Anthropic хотели раскатать доступ к Mythos, своей самой мощной анонсированной но закрытой модели, на 120 организаций (с текущих ~50). Белый дом пока что запретил это делать, ссылаясь на важность технологии (вдруг попадет не в те руки) и переживания о том, что компании не хватит мощностей для поддержания спроса... самого государства. Да-да, вы прочитали правильно: несмотря на то, что Министерство обороны объявило компанию риском в цепочке поставок, государственные агентства всё равно пользуются моделью (правда не ясно, получилось ли так в ходе дополнительных переговоров, или всё в рамках 90-дневного срока, который выделили агентствам на переход с технологий Anthropic).
— Anthropic начали обсуждения следующего раунда инвестиций; никаких бумаг пока не подписано, но компания рассматривает возможность привлечения капитала при оценке в $900B. Это чуть больше, чем у OpenAI в начале месяца ($852B). Наверное, где-то через месяц-полтора раунд закроют и объявят официально. Очень интересно будет посмотреть, какие компании вложатся, и войдут ли инвесторы с Ближнего Востока и суверенных фондов.
— Anthropic хотели раскатать доступ к Mythos, своей самой мощной анонсированной но закрытой модели, на 120 организаций (с текущих ~50). Белый дом пока что запретил это делать, ссылаясь на важность технологии (вдруг попадет не в те руки) и переживания о том, что компании не хватит мощностей для поддержания спроса... самого государства. Да-да, вы прочитали правильно: несмотря на то, что Министерство обороны объявило компанию риском в цепочке поставок, государственные агентства всё равно пользуются моделью (правда не ясно, получилось ли так в ходе дополнительных переговоров, или всё в рамках 90-дневного срока, который выделили агентствам на переход с технологий Anthropic).
«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI😂 ), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣176🤡59🌚31🔥13👍8💔6 6🤔5 4👨💻2💩1
Kantor.AI
Чем больше цитирований и репостов вы хотите, тем больше кринжа и кликбейта вам придется наваливать
Я согласен с тезисом Вити Кантора, но считаю, что это само по себе плохо. Ни Андрею Карпатому, ни Дваркешу Пателю не нужно было писать кликбейты — они выезжают на супер качественном материале в топ-0.001% для своей целевой аудитории и не размениваются по мелочам.
К этим двум, которые сразу пришли в голову, в ряд скромно добавлю себя, так как считаю, что мой канал и media presence выросли тоже из-за качества, а не кликбейтности. Для тех, кто не следил и не интересовался — я никогда не покупал (и не продавал) рекламу, а количество взаимных упоминаний по договоренности с другими каналами, на все из которых я был подписан задолго до, можно пересчитать по пальцам если не одной, то двух рук. Поэтому весь рост сводится к контенту и реакции на него.
Из 8 постов на хабре/VC я заголовки и обложки только 2 могу немного отнести к категории кринжа (тут частично @RationalAnswer постарался, если бы я делал всё один, то было бы чуть иначе), хотя сравнивая с другими по палате и то кажется адекватным.
В моей картине мира кликбейт и кринж зачастую выступают как шорткат к большим цифрам, что является плохой самоцелью. Но увы, для многих именно это и есть цель.
Может быть я спросонья плохо думаю, но сходу не могу вспомнить действительно хороших интересных авторов видео/блогов/статей/итд из индустрии, которым приходилось привлекать внимание кринжом и кликбейтом [я не говорю про YouTube/TikTok]. Хотя скорее всего это является моим баесом, так как на кринжовых кликбейтеров я не обращаю внимание, и как следствие они в этот список и не попадут.
К этим двум, которые сразу пришли в голову, в ряд скромно добавлю себя, так как считаю, что мой канал и media presence выросли тоже из-за качества, а не кликбейтности. Для тех, кто не следил и не интересовался — я никогда не покупал (и не продавал) рекламу, а количество взаимных упоминаний по договоренности с другими каналами, на все из которых я был подписан задолго до, можно пересчитать по пальцам если не одной, то двух рук. Поэтому весь рост сводится к контенту и реакции на него.
Из 8 постов на хабре/VC я заголовки и обложки только 2 могу немного отнести к категории кринжа (тут частично @RationalAnswer постарался, если бы я делал всё один, то было бы чуть иначе), хотя сравнивая с другими по палате и то кажется адекватным.
В моей картине мира кликбейт и кринж зачастую выступают как шорткат к большим цифрам, что является плохой самоцелью. Но увы, для многих именно это и есть цель.
Может быть я спросонья плохо думаю, но сходу не могу вспомнить действительно хороших интересных авторов видео/блогов/статей/итд из индустрии, которым приходилось привлекать внимание кринжом и кликбейтом [я не говорю про YouTube/TikTok]. Хотя скорее всего это является моим баесом, так как на кринжовых кликбейтеров я не обращаю внимание, и как следствие они в этот список и не попадут.
122👍266❤🔥73🤡60🤣17 15💩8🤔7🔥5👨💻4 4🎉2
Юра написал про то, как поменял своё мнение по поводу голосового ввода агентам. Таких историй всё больше и больше — весь день печатать в 5 (мне — в 6, ещё же этот канал есть 😀 ) разных окон устаешь.
Сам я пока проникся очень мало и делаю это относительно редко.
Но я вижу видение, и вспоминаю, что OpenAI не первый год работает над портативными девайсами с голосовым вводом. Год назад это казалось большей глупостью, чем сейчас🧠
Сам я пока проникся очень мало и делаю это относительно редко.
Но я вижу видение, и вспоминаю, что OpenAI не первый год работает над портативными девайсами с голосовым вводом. Год назад это казалось большей глупостью, чем сейчас
Please open Telegram to view this post
VIEW IN TELEGRAM
👍108❤🔥16🌚12🔥6🤡5🤔3💩3👎2 2
Forwarded from Rebryk Blog
В чём я был неправ #2
Когда мы были в YC, в нашей маленькой группе был проект AquaVoice. Ребята делали voice-to-text для десктопа.
Я смотрел на это скептически. Нафига? Все сидят в офисах, коворках, кафешках. Диктовать вслух, когда рядом люди - стремно. Дома многие тоже не одни.
Короче, мне казалось, что целевая аудитория - гики, которые живут одни и говорят с компом.
Потом Wispr Flow поднял $80M, вырос в 100 раз за год и подписал 270 компаний из Fortune 500. 80% retention на шестой месяц. AquaVoice тоже залетел - топ-1 на Hacker News.
Потом я сам начал голосом работать…(может я гик?)
Я уже писал, что ошибался насчет кодинга с телефона (пост). Но вот штука: если ты работаешь с телефона, голосовой ввод становится не фичей, а необходимостью. Набирать много текста - боль.
Сейчас я голосовухами пишу код, копаюсь в продуктовой аналитике, работаю с почтой и линкедином.
Короче, был жестко не прав.
Когда мы были в YC, в нашей маленькой группе был проект AquaVoice. Ребята делали voice-to-text для десктопа.
Я смотрел на это скептически. Нафига? Все сидят в офисах, коворках, кафешках. Диктовать вслух, когда рядом люди - стремно. Дома многие тоже не одни.
Короче, мне казалось, что целевая аудитория - гики, которые живут одни и говорят с компом.
Потом Wispr Flow поднял $80M, вырос в 100 раз за год и подписал 270 компаний из Fortune 500. 80% retention на шестой месяц. AquaVoice тоже залетел - топ-1 на Hacker News.
Потом я сам начал голосом работать…
Я уже писал, что ошибался насчет кодинга с телефона (пост). Но вот штука: если ты работаешь с телефона, голосовой ввод становится не фичей, а необходимостью. Набирать много текста - боль.
Сейчас я голосовухами пишу код, копаюсь в продуктовой аналитике, работаю с почтой и линкедином.
Короче, был жестко не прав.
1👍166🔥42🤡17👨💻12🤔11❤🔥3💩3 3
Сиолошная
Юра написал про то, как поменял своё мнение по поводу голосового ввода агентам. Таких историй всё больше и больше — весь день печатать в 5 (мне — в 6, ещё же этот канал есть 😀 ) разных окон устаешь. Сам я пока проникся очень мало и делаю это относительно редко.…
Объявляю конкурс на самую смешную подпись к этому шаблону мема. Тема — ИИ/Агенты/что-то, что реально можно было бы сказать своему голосовому ИИ-ассистенту.
Текст подписи должен начинаться с "Джарвис", "Кодекс" или "ГПТ". Менять картинку (особенно лицо) — можно, но чтобы шаблон узнавался.
Язык — русский или английский, результаты когда-нибудь на этой неделе, приз — посмеёмся все вместе.
Текст подписи должен начинаться с "Джарвис", "Кодекс" или "ГПТ". Менять картинку (особенно лицо) — можно, но чтобы шаблон узнавался.
Язык — русский или английский, результаты когда-нибудь на этой неделе, приз — посмеёмся все вместе.
🌚81👍38🤡31 18 4💩3
Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в отношении разных моделей.
Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива.
Каждый день пайплайн:
1. получает 200 самых популярных постов за 24 часа на Hacker News
2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50)
3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент.
На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.
Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива.
Каждый день пайплайн:
1. получает 200 самых популярных постов за 24 часа на Hacker News
2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50)
3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент.
На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.
👍108 25👨💻13🤡11🤔4🔥3🤣2❤🔥1💩1🌚1
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.
Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.
Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).
Получается авторазметка кодинг-агентами.
Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.
Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.
У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.
У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.
Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.
Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).
Получается авторазметка кодинг-агентами.
Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.
Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.
У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.
У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.
3🔥162👍46🤔25👨💻9🤯6 6❤🔥3💩3🤡3👎2
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше.
Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.
Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.
Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost solved, где порог пройденных тестов 95%, а не 100%).
На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.
На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.
Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати👀 )
Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.
Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.
Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost solved, где порог пройденных тестов 95%, а не 100%).
На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.
На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.
Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥72👍30🌚10❤🔥7🤔4👎3🤡3 1
Один из интересных графиков в статье с анализом поведениям моделей авторами статей.
GPT думает гораздо больше перед тем, как начать писать какой-либо код.
(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)
GPT думает гораздо больше перед тем, как начать писать какой-либо код.
(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)
👍56 12🌚9🤔8👨💻7🤡1
МАСК — ВСЁ!
Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
Как? Они заключили партнёрство со SpaceX на предоставление ВСЕХ мощностей датацентра Colossus 1 — около 220,000 видеокарт NVIDIA, ~300MW.
Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.
А новой модели от Anthropic сегодня, к сожалению, не будет :(
Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
Как? Они заключили партнёрство со SpaceX на предоставление ВСЕХ мощностей датацентра Colossus 1 — около 220,000 видеокарт NVIDIA, ~300MW.
Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.
А новой модели от Anthropic сегодня, к сожалению, не будет :(
5🤡5.21K🔥305🤯98🌚17 15🤔14😭10👍7🎉5👎4👨💻3
Как ProgramBench помогает понять, куда движется индустрия через год-полтора.
В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат (spec / спек — спецификация продукта, описание, как и что он делает, в деталях):
— Eсли бы еще у продуктов из репозиториев на гитхабе были бы исчерпывающие спеки…
— Собственно кажется бинарники для того и присобачили чтобы был хоть какой-то истинный ответ, потому что никакая документация обычно таковой не является
— Где ты видел документацию хоть сколько-нибудь актуальную и исчерпывающую? Я вот по жизни обратных кейсов встречал до жопы.
— Даже если разработка основана на spec, надо очень постараться чтобы сама дока была консистентной и согласованной
Я согласен с этими тезисами, хорошей всеобъемлющей документации фичей ПО действительно почти всегда не бывает. Но это не означает, что так должно быть в будущем — если ИИ агенты продолжат развиваться и проникать во всё большее количество компаний/команд разработки, то это вполне может повлиять на то, как эта разработка ведётся. Инструмент новый и с потенциалом изменить подход в корне.
Уже сейчас есть программисты, которые перешли на spec driven development (см. философию OpenSpec) — они сначала описывают детально функциональность, которую хотят поручить разработать агенту, итерируются несколько раз, оформляют список «ДАНО — КОГДА — ПОТОМ — И...» и запускают имплементацию. То есть разработчик участвует в принятии решений по логике, продумывает валидируемые детали.
Я вижу огромный потенциал для масштабирования подхода ProgramBench с двух сторон:
— решение LLM-агентом задач и получение обратной связи на то, что и где сработало, что нет. Это будет прокачивать долгосрочное планирование и архитектуру у агентов, ведь нужно как-то вываливать десять тысяч строк кода и больше. Всё в контекст не влезет, модели нужно будет учиться использовать внешнюю память.
— автоматическое создание спецификаций, даже при отсутствии исходного кода и бинарника для запуска. Тысячи детальных авто-сгенерированных спек. LLM-агенты могут продумывать пользовательский путь, декомпозировать фичи, проводить анализ схожей функциональности у ближайших конкурентов или аналогов. Пока что это будет на костылях, нужно какой-то системный подход продумать, уверен, над этим в компаниях работают.
И если первое понятно как использовать при наличии спеки, то что по второму? А то же самое — если эта система обучается из какой-то обратной связи, то я вижу, как можно генерировать большую часть спек автоматически. Агент просто задаст несколько верхнеуровневых вопросов и сам уйдет декомпозировать.
И получается, что открывается целая новая область окружений для тренировки агентов (как это было с имплементацией PR с GitHub в последние пару лет). Пойдут ли туда компании? Мне понятно, почему это желанно с экономической точки зрения. Dario Amodei на недавнем подкасте у Dwarksh говорил, что через сколько то месяцев-лет они закроют цикл Software Engineering, и уточнил, что речь и про архитектуру/планирование, а не только написание кода. Для меня описанный выше сценарий масштабирования тренировки выглядит сонаправленным с этим — модель и будет учиться продуктово мыслить, прорабатывать сценарии и тесты для них, и имплементировать спеку.
Как после SWE-Bench оказалось, что модели теперь будут работать на уровне PR, так и тут может оказаться, что новый способ разработки будет «по часовому голосовому сообщению с описанием того что я хочу агенты пошли написали 100 страниц спек и начали их имплементировать. За выходные справились» — и спеки, как понятно, будут инструментом агентов, а не людей.
В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат (spec / спек — спецификация продукта, описание, как и что он делает, в деталях):
— Eсли бы еще у продуктов из репозиториев на гитхабе были бы исчерпывающие спеки…
— Собственно кажется бинарники для того и присобачили чтобы был хоть какой-то истинный ответ, потому что никакая документация обычно таковой не является
— Где ты видел документацию хоть сколько-нибудь актуальную и исчерпывающую? Я вот по жизни обратных кейсов встречал до жопы.
— Даже если разработка основана на spec, надо очень постараться чтобы сама дока была консистентной и согласованной
Я согласен с этими тезисами, хорошей всеобъемлющей документации фичей ПО действительно почти всегда не бывает. Но это не означает, что так должно быть в будущем — если ИИ агенты продолжат развиваться и проникать во всё большее количество компаний/команд разработки, то это вполне может повлиять на то, как эта разработка ведётся. Инструмент новый и с потенциалом изменить подход в корне.
Уже сейчас есть программисты, которые перешли на spec driven development (см. философию OpenSpec) — они сначала описывают детально функциональность, которую хотят поручить разработать агенту, итерируются несколько раз, оформляют список «ДАНО — КОГДА — ПОТОМ — И...» и запускают имплементацию. То есть разработчик участвует в принятии решений по логике, продумывает валидируемые детали.
Я вижу огромный потенциал для масштабирования подхода ProgramBench с двух сторон:
— решение LLM-агентом задач и получение обратной связи на то, что и где сработало, что нет. Это будет прокачивать долгосрочное планирование и архитектуру у агентов, ведь нужно как-то вываливать десять тысяч строк кода и больше. Всё в контекст не влезет, модели нужно будет учиться использовать внешнюю память.
— автоматическое создание спецификаций, даже при отсутствии исходного кода и бинарника для запуска. Тысячи детальных авто-сгенерированных спек. LLM-агенты могут продумывать пользовательский путь, декомпозировать фичи, проводить анализ схожей функциональности у ближайших конкурентов или аналогов. Пока что это будет на костылях, нужно какой-то системный подход продумать, уверен, над этим в компаниях работают.
И если первое понятно как использовать при наличии спеки, то что по второму? А то же самое — если эта система обучается из какой-то обратной связи, то я вижу, как можно генерировать большую часть спек автоматически. Агент просто задаст несколько верхнеуровневых вопросов и сам уйдет декомпозировать.
И получается, что открывается целая новая область окружений для тренировки агентов (как это было с имплементацией PR с GitHub в последние пару лет). Пойдут ли туда компании? Мне понятно, почему это желанно с экономической точки зрения. Dario Amodei на недавнем подкасте у Dwarksh говорил, что через сколько то месяцев-лет они закроют цикл Software Engineering, и уточнил, что речь и про архитектуру/планирование, а не только написание кода. Для меня описанный выше сценарий масштабирования тренировки выглядит сонаправленным с этим — модель и будет учиться продуктово мыслить, прорабатывать сценарии и тесты для них, и имплементировать спеку.
Как после SWE-Bench оказалось, что модели теперь будут работать на уровне PR, так и тут может оказаться, что новый способ разработки будет «по часовому голосовому сообщению с описанием того что я хочу агенты пошли написали 100 страниц спек и начали их имплементировать. За выходные справились» — и спеки, как понятно, будут инструментом агентов, а не людей.
1👍130🤯21🤡16 9❤🔥8🔥7🤔6💩4👨💻4🎉1
METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.
Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк👨🦳 в нём очень мало задач, требующих 16 и более часов работы человека, поэтому конкретную цифру дать сложно — сами METR пишут «не менее 16 часов» (Opus 4.6 был 12 часов) для 50% вероятности успеха.
Для 80% — 3 часа (против полутора у Gemini 3.1 Pro).
METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится.
А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.
Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк
Для 80% — 3 часа (против полутора у Gemini 3.1 Pro).
METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится.
А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯133❤🔥30🎉18🤔10🔥6🤡6👍5😭3👎1 1
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
🎉84🔥48💩14❤🔥6👍4🌚3 3🤡2👎1
Forwarded from SpaceX | Starship News
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍146❤🔥61🎉25🔥19🤡12💩9👎4 2
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека😏 Верить этому или нет — не знаю, но вы попробуйте:
https://dsv4.interactive.ikot.blog
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека
https://dsv4.interactive.ikot.blog
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
348👎7.48K🤡4.86K💩2.53K🔥336👍151❤🔥91🤯27 12🤣4 4🌚1