Сиолошная

🥺 пока я разбираю предыдущую статью DeepSeek, они выпускают новую — наконец-то про работу с изображениями! Обновлений не было кажется с декабря 2024-го!

Статья: PDF на GitHub

Thinking with Visual Primitives, как следует из названия, обучает модели и думать, и выявлять объекты (примитивы). Вместо 100 слов — 5 картинок-примеров из статьи, от «посчитай людей на картинке» до «пройди лабиринт».

На выбранном наборе бенчмарков обходят GPT-5.4 и Gemini 3 Flash, при этом используя гораздо меньше токенов в контексте (=дешевле и быстрее для пользователя)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥169🤯33❤‍🔥22👍8🤔6👨‍💻3

27.4K views10:50

Сиолошная

Две новости:

— Anthropic начали обсуждения следующего раунда инвестиций; никаких бумаг пока не подписано, но компания рассматривает возможность привлечения капитала при оценке в $900B. Это чуть больше, чем у OpenAI в начале месяца ($852B). Наверное, где-то через месяц-полтора раунд закроют и объявят официально. Очень интересно будет посмотреть, какие компании вложатся, и войдут ли инвесторы с Ближнего Востока и суверенных фондов.

— Anthropic хотели раскатать доступ к Mythos, своей самой мощной анонсированной но закрытой модели, на 120 организаций (с текущих ~50). Белый дом пока что запретил это делать, ссылаясь на важность технологии (вдруг попадет не в те руки) и переживания о том, что компании не хватит мощностей для поддержания спроса... самого государства. Да-да, вы прочитали правильно: несмотря на то, что Министерство обороны объявило компанию риском в цепочке поставок, государственные агентства всё равно пользуются моделью (правда не ясно, получилось ли так в ходе дополнительных переговоров, или всё в рамках 90-дневного срока, который выделили агентствам на переход с технологий Anthropic).

144🌚56👍26🤣15🤔8❤‍🔥55🔥2

30.3K views11:28

Сиолошная

«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.

Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI 😂), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.

TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.

Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»

Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣176🤡59🌚31🔥13👍8💔66🤔54👨‍💻2💩1

84.5K views00:32

Сиолошная

Kantor.AI

Чем больше цитирований и репостов вы хотите, тем больше кринжа и кликбейта вам придется наваливать

Я согласен с тезисом Вити Кантора, но считаю, что это само по себе плохо. Ни Андрею Карпатому, ни Дваркешу Пателю не нужно было писать кликбейты — они выезжают на супер качественном материале в топ-0.001% для своей целевой аудитории и не размениваются по мелочам.

К этим двум, которые сразу пришли в голову, в ряд скромно добавлю себя, так как считаю, что мой канал и media presence выросли тоже из-за качества, а не кликбейтности. Для тех, кто не следил и не интересовался — я никогда не покупал (и не продавал) рекламу, а количество взаимных упоминаний по договоренности с другими каналами, на все из которых я был подписан задолго до, можно пересчитать по пальцам если не одной, то двух рук. Поэтому весь рост сводится к контенту и реакции на него.

Из 8 постов на хабре/VC я заголовки и обложки только 2 могу немного отнести к категории кринжа (тут частично @RationalAnswer постарался, если бы я делал всё один, то было бы чуть иначе), хотя сравнивая с другими по палате и то кажется адекватным.

В моей картине мира кликбейт и кринж зачастую выступают как шорткат к большим цифрам, что является плохой самоцелью. Но увы, для многих именно это и есть цель.

Может быть я спросонья плохо думаю, но сходу не могу вспомнить действительно хороших интересных авторов видео/блогов/статей/итд из индустрии, которым приходилось привлекать внимание кринжом и кликбейтом [я не говорю про YouTube/TikTok]. Хотя скорее всего это является моим баесом, так как на кринжовых кликбейтеров я не обращаю внимание, и как следствие они в этот список и не попадут.

122👍266❤‍🔥73🤡60🤣1715💩8🤔7🔥5👨‍💻44🎉2

28.5K viewsedited 11:38

Сиолошная

Юра написал про то, как поменял своё мнение по поводу голосового ввода агентам. Таких историй всё больше и больше — весь день печатать в 5 (мне — в 6, ещё же этот канал есть 😀) разных окон устаешь.

Сам я пока проникся очень мало и делаю это относительно редко.

Но я вижу видение, и вспоминаю, что OpenAI не первый год работает над портативными девайсами с голосовым вводом. Год назад это казалось большей глупостью, чем сейчас 🧠

Please open Telegram to view this post

VIEW IN TELEGRAM

👍108❤‍🔥16🌚12🔥6🤡5🤔3💩3👎22

23.4K views01:10

Сиолошная

Forwarded from Rebryk Blog

В чём я был неправ #2

Когда мы были в YC, в нашей маленькой группе был проект AquaVoice. Ребята делали voice-to-text для десктопа.

Я смотрел на это скептически. Нафига? Все сидят в офисах, коворках, кафешках. Диктовать вслух, когда рядом люди - стремно. Дома многие тоже не одни.

Короче, мне казалось, что целевая аудитория - гики, которые живут одни и говорят с компом.

Потом Wispr Flow поднял $80M, вырос в 100 раз за год и подписал 270 компаний из Fortune 500. 80% retention на шестой месяц. AquaVoice тоже залетел - топ-1 на Hacker News.

Потом я сам начал голосом работать… (может я гик?)

Я уже писал, что ошибался насчет кодинга с телефона (пост). Но вот штука: если ты работаешь с телефона, голосовой ввод становится не фичей, а необходимостью. Набирать много текста - боль.

Сейчас я голосовухами пишу код, копаюсь в продуктовой аналитике, работаю с почтой и линкедином.

Короче, был жестко не прав.

1👍166🔥42🤡17👨‍💻12🤔11❤‍🔥3💩33

27.1K views01:10

Сиолошная

😏

(мы пока так и не получили модели, про которые TheInformation писали в начале года. Когда же?)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥51👍20🌚85🤔1👨‍💻1

23.5K viewsedited 01:11

Сиолошная

Объявляю конкурс на самую смешную подпись к этому шаблону мема. Тема — ИИ/Агенты/что-то, что реально можно было бы сказать своему голосовому ИИ-ассистенту.

Текст подписи должен начинаться с "Джарвис", "Кодекс" или "ГПТ". Менять картинку (особенно лицо) — можно, но чтобы шаблон узнавался.

Язык — русский или английский, результаты когда-нибудь на этой неделе, приз — посмеёмся все вместе.

🌚81👍38🤡31184💩3

23.1K viewsedited 01:24

Сиолошная

Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в отношении разных моделей.

Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива.

Каждый день пайплайн:
1. получает 200 самых популярных постов за 24 часа на Hacker News
2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50)
3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент.

На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.

👍10825👨‍💻13🤡11🤔4🔥3🤣2❤‍🔥1💩1🌚1

32.6K views11:59

Сиолошная

Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.

Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.

Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).

Получается авторазметка кодинг-агентами.

Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.

Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.

У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.

У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.

3🔥162👍46🤔25👨‍💻9🤯66❤‍🔥3💩3🤡3👎2

25.1K views08:37

Сиолошная

Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше.

Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.

Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.

Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost solved, где порог пройденных тестов 95%, а не 100%).

На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.

На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.

Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати 👀)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥72👍30🌚10❤‍🔥7🤔4👎3🤡31

24.7K views08:37

Сиолошная

Один из интересных графиков в статье с анализом поведениям моделей авторами статей.

GPT думает гораздо больше перед тем, как начать писать какой-либо код.

(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)

👍5612🌚9🤔8👨‍💻7🤡1

30.9K views08:39

Сиолошная

МАСК — ВСЁ!

Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.

Как? Они заключили партнёрство со SpaceX на предоставление ВСЕХ мощностей датацентра Colossus 1 — около 220,000 видеокарт NVIDIA, ~300MW.

Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.

А новой модели от Anthropic сегодня, к сожалению, не будет :(

5🤡5.21K🔥305🤯98🌚1715🤔14😭10👍7🎉5👎4👨‍💻3

46.9K viewsedited 16:13

Сиолошная

Как ProgramBench помогает понять, куда движется индустрия через год-полтора.

В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат (spec / спек — спецификация продукта, описание, как и что он делает, в деталях):
— Eсли бы еще у продуктов из репозиториев на гитхабе были бы исчерпывающие спеки…
— Собственно кажется бинарники для того и присобачили чтобы был хоть какой-то истинный ответ, потому что никакая документация обычно таковой не является
— Где ты видел документацию хоть сколько-нибудь актуальную и исчерпывающую? Я вот по жизни обратных кейсов встречал до жопы.
— Даже если разработка основана на spec, надо очень постараться чтобы сама дока была консистентной и согласованной

Я согласен с этими тезисами, хорошей всеобъемлющей документации фичей ПО действительно почти всегда не бывает. Но это не означает, что так должно быть в будущем — если ИИ агенты продолжат развиваться и проникать во всё большее количество компаний/команд разработки, то это вполне может повлиять на то, как эта разработка ведётся. Инструмент новый и с потенциалом изменить подход в корне.

Уже сейчас есть программисты, которые перешли на spec driven development (см. философию OpenSpec) — они сначала описывают детально функциональность, которую хотят поручить разработать агенту, итерируются несколько раз, оформляют список «ДАНО — КОГДА — ПОТОМ — И...» и запускают имплементацию. То есть разработчик участвует в принятии решений по логике, продумывает валидируемые детали.

Я вижу огромный потенциал для масштабирования подхода ProgramBench с двух сторон:
— решение LLM-агентом задач и получение обратной связи на то, что и где сработало, что нет. Это будет прокачивать долгосрочное планирование и архитектуру у агентов, ведь нужно как-то вываливать десять тысяч строк кода и больше. Всё в контекст не влезет, модели нужно будет учиться использовать внешнюю память.

— автоматическое создание спецификаций, даже при отсутствии исходного кода и бинарника для запуска. Тысячи детальных авто-сгенерированных спек. LLM-агенты могут продумывать пользовательский путь, декомпозировать фичи, проводить анализ схожей функциональности у ближайших конкурентов или аналогов. Пока что это будет на костылях, нужно какой-то системный подход продумать, уверен, над этим в компаниях работают.

И если первое понятно как использовать при наличии спеки, то что по второму? А то же самое — если эта система обучается из какой-то обратной связи, то я вижу, как можно генерировать большую часть спек автоматически. Агент просто задаст несколько верхнеуровневых вопросов и сам уйдет декомпозировать.

И получается, что открывается целая новая область окружений для тренировки агентов (как это было с имплементацией PR с GitHub в последние пару лет). Пойдут ли туда компании? Мне понятно, почему это желанно с экономической точки зрения. Dario Amodei на недавнем подкасте у Dwarksh говорил, что через сколько то месяцев-лет они закроют цикл Software Engineering, и уточнил, что речь и про архитектуру/планирование, а не только написание кода. Для меня описанный выше сценарий масштабирования тренировки выглядит сонаправленным с этим — модель и будет учиться продуктово мыслить, прорабатывать сценарии и тесты для них, и имплементировать спеку.

Как после SWE-Bench оказалось, что модели теперь будут работать на уровне PR, так и тут может оказаться, что новый способ разработки будет «по часовому голосовому сообщению с описанием того что я хочу агенты пошли написали 100 страниц спек и начали их имплементировать. За выходные справились» — и спеки, как понятно, будут инструментом агентов, а не людей.

1👍130🤯21🤡169❤‍🔥8🔥7🤔6💩4👨‍💻4🎉1

30.2K viewsedited 23:26

Сиолошная

METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.

Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк 👨‍🦳 в нём очень мало задач, требующих 16 и более часов работы человека, поэтому конкретную цифру дать сложно — сами METR пишут «не менее 16 часов» (Opus 4.6 был 12 часов) для 50% вероятности успеха.

Для 80% — 3 часа (против полутора у Gemini 3.1 Pro).

METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится.

А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯133❤‍🔥30🎉18🤔10🔥6🤡6👍5😭3👎11

29.5K viewsedited 11:55

Сиолошная

В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна

Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.

🎉84🔥48💩14❤‍🔥6👍4🌚33🤡2👎1

29.2K views12:56

Сиолошная

Forwarded from SpaceX | Starship News

🚀

📸Красота

Please open Telegram to view this post

VIEW IN TELEGRAM

5👍146❤‍🔥61🎉25🔥19🤡12💩9👎42

30K views12:56

Сиолошная

Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.

Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.

Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?

...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.

Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.

Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте:

https://dsv4.interactive.ikot.blog

0:39

Media is too big

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

348👎7.48K🤡4.86K💩2.53K🔥336👍151❤‍🔥91🤯2712🤣44🌚1

48.8K viewsedited 14:55

About

Blog

Apps

Platform