Сиолошная
75.5K subscribers
1.98K photos
336 videos
1 file
1.96K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://tg-me.sbs/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набора инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая. Изначально Bun был написан…
Произошла ситуация: в комментариях меня упрекнули, что ключевой разработчик Bun написал 5-го мая, что это всего лишь эксперимент, а Bun не планирует переезжать на Rust — а я про это не сказал.

Правда для самого разработчика способность Claude переписать всю кодовую базу так, чтоб заработало, оказалась большим сюрпризом. 9-го мая он затвитил мем курящего Макконахи и сказал, что 99% тестов уже проходят. А 11-го мая написал:
«Завтра выйдет Bun v1.3.14. Если мы всё-таки объединим переписанную на Rust версию с основной кодовой базой, это будет последняя версия в Zig.»

Ну а 13/14-го мая, как вы знаете, версии кода были объединены. Так что Rust остаётся, Zig уходит почти наверняка — финальное подтверждение ожидаю в обещанном блогпосте.

Что мы узнали? Две вещи:
1) в комментариях как всегда люди, которым виднее (я с этим борюсь, конечно, уменьшаю их число)

2) даже сотрудник Anthropic с доступом к лучшей экспертизе и моделям, а также в целом очень сильный разработчик, не ожидал, что модели НАСТОЛЬКО хороши и смогут перевести его проект на новый язык. Черт возьми, миллион строк кода! И это ЗА НЕДЕЛЮ развернуло его позицию на 180 градусов.
🤡202184🔥74🤣30👍27❤‍🔥11🌚10👨‍💻5🤔4🎉2💩2
🤡 в сообществе уже появились персонажи, у которых переписывание популярного фреймворка на 1 миллион строк — это простые, не очень впечатляющие задачи, в которых нет ничего нового.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣1.53K🌚105🤡9525👍18❤‍🔥9👨‍💻6🤔3💩32
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤡117👍34🌚158👨‍💻7🤔54💩2🤣2🔥1
Сиолошная
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы. Ну а после присяжные…
Sama wins

Суд присяжных постановил, что Маск подал иск слишком поздно, чтобы признать Альтмана, Брокмана или OpenAI ответственными за какие-либо претензии, предъявленные им генеральным директором Tesla. Присяжные также признали Microsoft невиновной в пособничестве Альтману и Брокману и получении прибыли от сделок с OpenAI из-за сроков подачи иска Маском.


Почему так? (моя интерпретация) потому что сам Elon покинул компанию в 2018-м году, а последние пожертвования от него были в 2020-м — и то в виде предоплаченной аренды офиса, а не прямых инвестиций. При этом обо всех "незаконных" вещах, о которых он рассказывал, он знал очень давно. OpenAI не стали коммерческой компанией вчера или даже в 2020-м. И присяжные посчитали, что Elon уже тогда знал о вещах, которые подтолкнули его, с его же слов, к иску.

Присяжным потребовалось меньше 2 часов. Судья согласилась с вердиктом и приняла его.

В честь праздника закажу энергетик, больше полугода не пил 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤡359❤‍🔥15847👍33🤣27🔥14🤔13👎12💩5😭2😈1
Cursor анонсировали новую модель собственного производства, Composer 2.5. Она базируется на Kimi 2.5 (как и Composer 2), но компания влила в модель в ~7 раз больше мощностей, чем авторы самой Kimi.

Отчитались о качестве на 3 бенчмарках — везде существенно лучше Composer 2, и почти догоняет Opus 4.7. Самый главный бенчмарк тут наверное CursorBench v3.1, так как предположу, что он ближе всего к тому, что делают пользователи в их IDE с агентами. Если попробуете модель — пишите в комменты как вам.

В анонсе важны три вещи.

Во-первых, цена: поскольку компания сама разворачивает модель и никому не платит маржу, то Composer гораздо выгоднее (цена не поменялась с прошлой версии). Цены $0.5 и $2.5 за миллион токенов на входе и выходе (правда скидка на кэш всего 50%, а не по 90%, как у других). GPT-5.5 стоит 5/30 — более чем в 10 раз дороже. См. вторую картинку в посте для соотношения цена-качество. Это важно потому, что делает подписку Cursor привлекательной для корпоративных клиентов, которые уже начали ощущать на себе последствия ценовой политики Anthropic, заставляющих платить энтерпрайз по API-ценам.

Во-вторых, Cursor написали, что уже тренируют (с нуля!) модель на в ~10 раз большем количестве мощностей на кластере SpaceXAI Colossus 2. Да, один кластер Elon Musk отдал Anthropic, а другой себе + Cursor, с которыми заключили сделку. Но даже для Composer 2.5 увеличили количество синтетических данных в 25 раз, и по другим осям тоже докинули — мощностей потребовалось не мало.

В-третьих, в обучении модели использовали self-distillation. Я мб напишу позже разбор статей (в блоге ссылаются на 3), но если тезисно: одна и та же модель выступает и в роли учителя, и в роли ученика. Ученик генерирует ответы, и иногда ошибается (например, неправильно вызывает инструмент для редактирования кода или запуска тестов). Такой момент отлавливается, и затем та же модель с того же места получает подсказу или напоминание. Опираясь на них, учитель генерирует более качественное распределение вероятностей для следующих токенов. Ученик же видит только исходный запрос и учится предсказывать те же токены, минимизируя расхождение (KL-дивергенцию) с поведением учителя. См. картинку 3 в посте.

Зачем это нужно? Проблема обычного подхода к обучению в том, что модель получает награду за всё решение, и либо всё — хорошо, либо всё — плохо. При этом даже неправильный шаг в правильном решении получает награду. Self-distillation позволяет точечно исправить это.

Скорее всего в ближайшее время будем много слышать-читать про self-distillation, все подхватят и начнут использовать.

А Cursor x SpaceXAI плавно идут к выпуску крупной модели Grok 5 / Composer 3.
1🔥233👍62❤‍🔥18🎉5🤡5🤔43💩1👨‍💻11
Karpathy теперь не безработный AI-учитель, а сотрудник Anthropic.

(на самом деле он пошел за бесплатными кредитами на Claude Code)
1❤‍🔥341🤣215🤯104🔥31🌚1812🤡87🤔6👨‍💻6
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё отдельно), и Gemini Flash 3.5 — новый флагман компании. Почти как Gemini Pro 3.1 (во многом лучше по метрикам, но нужно смотреть в практике), но существенно быстрее и немного дешевле Pro (но гораздо дороже прошлых Flash).

На новых чипах TPU v8i скорость вообще была 800-1500 токенов в секунду, но пока видимо не доступно. Хотя упомянули, что в Antigravity скорость в 12 раз быстрее, чем прошлая Pro.

Ждём Pro (не сегодня) — обещали в следующем месяце.
1👍109🔥46🤡9❤‍🔥7🤔5👨‍💻3🤯1💩1
Сиолошная
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё отдельно), и Gemini Flash 3.5 — новый флагман компании. Почти как Gemini Pro 3.1 (во многом лучше по метрикам, но нужно смотреть в практике), но существенно быстрее и немного дешевле…
Для наглядности, вот эволюция цены выходных токенов Flash-моделей Gemini 😦

Так что теперь Flash Lite как прошлый Flash, Flash как прошлый Pro, а Pro... как то, с чего дистиллировали модель 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯190❤‍🔥18🤔18😭10👍5🤡5🌚4👎3💩2👨‍💻22
Сиолошная
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке). По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые…
Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.

К сожалению, не могу найти, какой % от компании, но очень интересно, сколько фаундеров примут предложение — токены они получают сейчас, а акции ещё когда что-то стоить начнут? Не скоро.

Интересно, как изменится относительная популярность Claude Code в ближайшее время 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣909🤯68❤‍🔥3424🔥19👍12🤔12🎉5🤡5💩2
Сиолошная
Можно ли рассматривать эту ситуацию как move 37 в математике? Скорее всего нет, хоть и очень близко:
Ну вот а свежий тизер к GPT-5.6 уже скорее всего можно — OpenAI выпустили блогпост, статью и комментарии от математиков о решении одной из самых известных задач в комбинаторной геометрии, которую легко сформулировать, но невероятно трудно решить. На протяжении почти 80 лет математики изучали обманчиво простой вопрос: если расположить n точек на плоскости, сколько пар точек могут находиться на расстоянии ровно 1 друг от друга?

Со времен оригинальной постановки проблемы преобладало мнение, что конструкции в виде «квадратной сетки» были оптимальными для максимизации числа пар. Внутренняя модель OpenAI опровергла эту гипотезу, предоставив бесконечное семейство примеров, которые дают улучшение. Доказательство было проверено группой независимых математиков. Они также написали сопроводительную статью, объясняющую логику решения и предоставляющую дополнительную предысторию и контекст о значимости этого результата.

Как и почти всегда, доказательство было получено с помощью новой модели общего назначения, обладающей способностью к рассуждениям, а не от системы, обученной специально для математики или под конкретную задачу (поэтому я пошутил про GPT-5.6).

Это доказательство является важной вехой для сообществ математиков. Это первый случай, когда значимая открытая проблема, занимающая центральное место в одном из разделов математики, была автономно решена искусственным интеллектом.

В этом доказательстве для решения элементарной геометрической задачи применяются неожиданные и сложные идеи из алгебраической теории чисел. Лауреат Филдсовской премии Timothy Gowers в сопроводительной статье называет этот результат «вехой для ИИ в математике». По словам другого математика, «эта статья демонстрирует, что современные ИИ-модели — это нечто большее, чем просто помощники для людей-математиков. Они способны генерировать оригинальные, гениальные идеи и затем доводить их реализацию до конца».

Пара опрошенных учёных даже сказали, что приняли бы эту работу в любой научный журнал без колебаний.

Бонусом показали, что результат — не случайность; после проверки первоначального доказательства OpenAI прогнали модель несколько раз с разными настройками. И видно, что при увеличении количества использованных мощностей (читай длины цепочек рассуждений) модель всё чаще и чаще приходит к доказательству, вплоть до 48% от всех прогонов (см. картинку ниже).
1🤯247❤‍🔥96🔥61🎉34👍18135🤡4💩3👨‍💻1
Много финансовых новостей:

— OpenAI готовится подать приватную заявку для подготовки к IPO. Это не означает, что IPO будет прям совсем скоро, но подразумевает, что будет до конца года. В новостях пишут, что обсуждается возможность выхода на IPO в сентябре. Компания хочет опередить Anthropic, чтобы привлечь больше капитала.

— SpaceXAI уже подали форму S-1 для IPO (один из последних шагов перед размещением, которое пройдет в июне), и в ней много интересных деталей

— из этой формы стало известно, что Anthropic платит SpaceXAI 1.25 миллиарда долларов в месяц за мощности Colossus 1 (и возможно немного Colossus 2 — прямо сегодня Tom Brown, помните такого?, написал, что Anthropic теперь и на новом кластере будет работать). Сделка до мая 2029-го, но компании могут её разорвать в любой момент, предупредив за 90 дней.

— Также в форме S-1 указан общий размер рынка, в который целится SpaceXAI, 28.5 триллионов долларов 😂 26.5 из них — это AI, что понятно, но удивлён, что на космос так мало 😭 а как же покорение Марса

— за 2025-й выручка $18.67B, но почти всё — запуски; X и xAI приносят мало.

— SpaceXAI довольны взаимодействием с Cursor (о сделке писали ранее), и планируют совершить покупку компании за 60 миллиардов долларов после IPO.

— Nvidia отчиталась за квартал и снова превзошла ожидания аналитиков и свои прошлые предсказания, но акции традиционно упали 😕 я не знаю почему

— и последнее: Anthropic планируют закрыть второй квартал (кончающийся в июне) с operating income — то есть выйти в плюс и заработать прибыль около $560M. Это связано с невероятным ростом спроса и выручки, которая превысит $10.9B за квартал (то есть ARR примерно $44B в год). Ранее компания планировала выйти в прибыль в 2028м. Как я писал ранее, они недооценивают спрос на мощности, поэтому не инвестировали в свои ДЦ так же много, как OpenAI, поэтому сейчас а) тратят меньше в долгосрок б) платят больше в краткосрок (та же сделка с SpaceXAI). Очевидно, что если бы они ожидали такого роста, то нашли бы, в какие сервера вкинуть ещё 600 миллионов долларов :) в мае и июне SpaceXAI расширит свой контракт с Anthropic на поставку мощностей «по сниженной ставке», поэтому деньги точно лежать не будут.
Please open Telegram to view this post
VIEW IN TELEGRAM
💔2.04K😈1.99K👎1.92K💩1.9K👍41🔥39🤯13🎉9🤡7👨‍💻53
Anthropic выпустили пост-обновление про Mythos и Project Glasswing с промежуточными результатами.

Спустя месяц большинство партнеров обнаружили в своем коде сотни уязвимостей критического и высокого уровня опасности каждый. В общей сложности они выявили десятки тысяч уязвимостей. Некоторые из партнёров сообщили, что скорость обнаружения багов выросла более чем в десять раз. Например, компания Cloudflare нашла 2000 уязвимостей (400 из которых имеют высокий или критический уровень опасности) в своих критически важных системах, при этом доля ложных срабатываний, по мнению команды Cloudflare, оказалась ниже, чем у тестировщиков-людей.

Я видел много комментариев про то, что, мол, Mythos да может что-то находит, но наверняка выдаёт и много мусора, где уязвимостей нет — так вот это не так. Помимо закрытых проектов, Anthropic натравили Mythos и на опенсурс для сканирования более 1000 крупных репозиториев, на которых во многом держится современный интернет. На данный момент, по оценкам Anthropic, в этих проектах найдено 6202 уязвимости высокого или критического уровня (из 23 тысяч в общей сложности, включая те, которые относятся к среднему или низкому уровню опасности).

На данный момент лишь 1752 из этих уязвимостей с высоким и критическим уровнем прошли тщательную проверку силами одной из шести независимых исследовательских компаний в сфере кибербезопасности. Из них 90% оказались подтвержденными, а 62% (1100 штук) были классифицированы именно как уязвимости высокого или критического уровня.

Некоторые из уязвимостей носили очень серьёзный уровень угрозы, если бы они были обнаружены злоумышленниками. Как пример, Mythos смо написать эксплойт, который позволил бы злоумышленнику подделывать сертификаты через библиотеку wolfSSL. Это, к примеру, дало бы ему возможность разместить фальшивый сайт банка или почтового провайдера, и для конечного пользователя такой сайт выглядел бы абсолютно легитимным, браузер не показал бы никаких уведомлений.

Обнаруженные уязвимости льются как из рога изобилия, их не успевают исправлять, не хватает людей. Некоторые команды/проекты даже просили снизить темпы раскрытия информации об уязвимостях, поскольку им требуется больше времени на создание патчей. (В среднем, на устранение бага высокого или критического уровня, найденного с помощью Mythos Preview, уходит две недели).

В настоящее время ни одна компания — включая Anthropic — не разработала достаточно надежных механизмов защиты, способных предотвратить использование подобных ИИ-моделей во зло и для причинения потенциально серьезного ущерба. Именно поэтому к модели не дают доступ широкой аудитории. Но по этой же причине и был запущен Project Glasswing: если модель с аналогичными возможностями будет выпущена кем-то без соответствующих мер, то в скором времени для любого человека в мире станет значительно дешевле и проще эксплуатировать уязвимый код.
2🤯228🔥80🎉67🤡30👍2114🌚7❤‍🔥5💩4👎3😈2
This media is not supported in your browser
VIEW IN TELEGRAM
Первое видео Starship из космоса со стороны.
🔥188❤‍🔥41🤯13💩12🎉10👍74🤡3🤣2
BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding — лучшая статья MLSys '26.

Классная идея ускорения расчёта attention в трансформерах, заявляют большие цифры, около 50% ускорения, но на замере всей модели, а не отдельного блока, выходит ~10%. В основном потому, что в целом всё сильно заоптимизировано, и на безрыбье и 10% — много.

В чём идея: обычный FlashAttention при обработке последовательности распиливает её на блоки (по KV) и начинает обработку слева направо. Поскольку в Attention есть softmax, а значит и экспонента, то существует риск переполнения, когда степенью становится очень большое число — поэтому применяется классический трюк вычитания максимума (Softmax инвариантен к сдвигу). Но если FlashAttention работает по блокам, то как узнать максимум заранее?

Можно предварительно пройтись по всем токенам и посчитать max(), но это медленно. Ещё с 2018-го года известен трюк онлайн-подсчёта, который использовал FlashAttention 1. Его смысл в том, что нам не нужно знать максимум сразу — мы помним текущий максимум и для каждого нового блока сравниваем его и локальный максимум блока. Если они отличаются — нормализацию надо пересчитать, в том числе задним числом для предыдущих блоков. Таким образом обработав последний блок в последовательности все предыдущие блоки уже скорректированы, и расчёт Attention становится точным.

FlashAttention 4 предложил новую идею: делать коррекцию предыдущих блоков не каждый раз, когда встречается новый максимум, а только тогда, когда есть угроза потери точности вычислений из-за переполнения. Но при этом все вычисления всё равно так или иначе производятся по честному, никакие расчёты не выкидываются, и Attention получается математически точным.

BLASST предлагает идти дальше: если в блоке максимум сильно меньше, чем посчитанный по предыдущим блокам, то его полностью выбрасывают. Value-векторы токенов этого блока вообще не участвуют в вычислениях. Так можно сделать потому, что если максимум (то есть самые «важные» токены) маленький, то получается, что ничего важного в блоке и не было.

Это изображено на первой картинке — есть 6 блоков, первый всегда обрабатывается, а некоторые последующие пропускаются.

Авторы показывают, что можно выкидывать чуть ли не 50-60% блоков (то есть примерно столько же токенов в последовательности) и при этом почти не терять в качестве — до 1% на бенчмарках на длинный контекст. А в некоторых бенчмарках на рассуждения (AIME2024, GPQA) даже наблюдается маленький прирост качества, я бы сказал в рамках погрешности. Авторы объясняют это тем, что выкидывают токены, которые являются шумом и не важны для текущего токена. Логика в этом есть, в целом все sparse attention на это опираются.

Все изменения можно делать без дообучения моделей, просто поменяв кернелы для инференса. Но также показывают, что если модель немного поучить с новыми кернелами, чтобы она привыкла, что некоторые блоки выкидываются, то качество подрастает.

Один из плюсов подхода — он совместим со множеством других оптимизаций, включая DeepSeek MLA (правда статья вышла до v4, поэтому MLA уже не так актуален).

А в серьезные минусы статьи запишу, что как-то поскупились на оценки больших моделей на реально тяжелых бенчмарках с длинным контекстом — работу написали исследователи из Nvidia, уж у кого, а у них мощности точно были. В аппендиксе тестируют Llama 3.1 70b на одном датасете и DeepSeek R1 на трёх, но не long context — и для обеих моделей не пишут про ускорение 👨‍🦳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104❤‍🔥25👨‍💻173🔥1💩1
В параллельном мире у всех сегодня отпуск, все сидят играют в GTA VI

А нам ждать до 19-го ноября.
1😭246🤣49❤‍🔥2313🤡6💔5👎4🌚3🤔2👍1💩1
Forwarded from БлоGнот
Китай распространил режим выездных согласований на топ-специалистов по AI в частных компаниях, включая Alibaba и DeepSeek. По данным источников Bloomberg, основателям стартапов, исследователям и руководителям, признанным стратегически значимыми, теперь требуется одобрение властей перед поездками за рубеж. Прежде подобная практика — вплоть до изъятия паспортов — применялась к чиновникам, ядерщикам и менеджменту госкомпаний; распространение её на частный сектор ранее было нехарактерно. Списки формируются не по уровню должности, а по индивидуальной оценке критичности человека для страны.

Все "новое" на самом деле просто старое, о котором не в курсе новые поколения. Всякие особенности на передвижение людей, имевших или могущих иметь отношение к "режимным" вопросам, не пропадали никогда на протяжении последних лет 80. А уж если кто помнит советские практики в этом плане, то и вообще удивляться не будет.

https://www.bloomberg.com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc3OTgwMDQwMCwiZXhwIjoxNzgwNDA1MjAwLCJhcnRpY2xlSWQiOiJURjBEMzhLSzNOWUEwMCIsImJjb25uZWN0SWQiOiJDODcyMDJCNUE5RkU0Q0NBOTBFMTgzMDUxNkYxNTlGRSJ9.HzM3tbnW8AlvQEje6EVlRrl7NLsqCcxkVWRx1-zpTqI
🌚141👍39💔19😭1814👨‍💻9🤔7🔥5🤯4🤣4❤‍🔥1
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨‍🦳Структурно во многом повторяют SWE-Bench-like бенчмарки, но:
— промпты не описывают детали имплементации, где и что
— верификация сделана чуть более чисто, тесты направлены на наблюдаемое поведение, а не конкретную имплементацию
— в среднем требуется добавить 668 строк кода (против 100-200 у многих предыдущих бенчмарков)
— задачи основаны на публичных репозиториях, но не на коде, который был опубликован. Например, авторы брали незакрытую проблему, писали решение, и против него уже проверяют LLM.

Результаты на первой картинке. Важный астериск — использовали mini-swe-agent, а не родные инструменты моделей, но на 10 случайно выбранных задачах показали, что просадки в качестве нет (на 10 примерах доверительный интервал поди +-4 😀)

3 и 4 картинки сравнивают разные модели по скорости работы (токены и время) и цене. Например, с Gemini 3.5 Flash наблюдается паттерн, который отметили многие — модель как бы работает быстрее, но ей и требуется гораздо больше токенов, потому выходит по цене так же, как... GPT-5.5 или Opus 4.6 😂(и дороже Gemini 3.1 Pro). Но хоть оценка не настолько плоха.

Тут как ни посмотри, модели OpenAI впереди — быстрее, дешевле, лучше. Скорее всего причина в том, что их пайплайн подготовки задач гораздо более похож на тот, что использовали авторы DeepSWE. Но с другой стороны не думаю, что это объясняет прям всю разницу — уже вышло много бенчей, где 5.5 действительно на уровне или обходит Claude.

На этом авторы не остановились, а начали анализировать результаты и траектории — для этого использовали LLM-агента, чтобы разметить паттерны ошибок (чтобы не пропускать как будто работающие, но плохие решения). Самые частые проблемы — это игнорирование части требований (GPT-5.5 опять хорошо выделяется следованием инструкций), ошибки интеграции и регрессия, когда из-за новой функциональности перестает работать старая.

Для всех типов ошибок выложены траектории-примеры, очень рекомендую перейти на сайт и почитать хотя бы парочку; мне было интересно.

Вот Блогпост

И ещё авторы сделали пару наблюдений:
— Claude плохо запоминает многосоставные промпты. Часто просят сделать A и Б, модель делает А, но про Б забывает.
— сильные модели пишут тесты даже когда их об этом не просят. Особенно заметно в GPT (любители smoke tests тут? Наверняка заметили) и Claude, в 80% задач. Слабым ещё предстоит это освоить, глядишь, скор подрастет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥17🌚15🤔8🤡777💩5👨‍💻4❤‍🔥1💔1