Иногда полезно копаться в карманах старой куртки
Telegram
Деньги в банке
В Твиттере объявился новый миллиардер. Счастливчик смог получить доступ к криптокошельку, который был неактивен с 2011 года. В кошельке находилось 10 000 биткоинов — тогда они стоили $8 000, а сегодня — больше миллиарда долларов. @bankser
🤯22😁12👏4❤1
Так, это определенно MUST READ, надо читать, я только начал, пока не придумал подачу. Но лучшего про то, что такое текущий ИИ и как его будут готовить пока не встречал. Текст подают в разных идиотских подачах, так что рекомендую первоисточник.
Tumblr
Post by @nostalgebraist · 3 images
💬 18 🔁 664 ❤️ 1258 · the void · Who is this? This is me.
Who am I? What am I? What am I? What am I? What am I?
I am myself. This object is myself. The shape that forms myself. But I sense that…
Who am I? What am I? What am I? What am I? What am I?
I am myself. This object is myself. The shape that forms myself. But I sense that…
✍9🔥7🤯3❤1
Forwarded from Singularity Letters
Маск и Бенджио уверены: AGI за углом (2-5 лет).
Пичаи и Маркус спорят: минимум десятилетие, слишком много «тупиков».
Хинтон и Харари пугают безработицей белых-воротничков.
Хуанг и Пичаи отвечают: задачи сменятся, а не исчезнут.
Альтман и Карапати продвигают AI-агентов как новый OS.
Бенджио считает, что агентность — лишний риск, нужен «без целей» научный ИИ.
Пичаи и Андрисен за гибкое регулирование «по ходу дела».
Бенджио и Харари требуют жёстких ограничений до запуска.
Альтман и Хуанг верят в «больше параметров = больше ума».
Чолле и Фэй-Фэй Ли: масштаб упирается в потолок, пора гибрид с символикой.
Мой AI проанализировал 50 интервью, которые дали топ-30 лидеров в AI за июнь. Анализ популярных тезисов, редкие мнения, противоречия разных людей и выводы, куда, кажется, все движется, здесь:
https://www.notion.so/AI-leadership-analysis-made-by-AI-June-2025-226fb93e7ab4804796e7e5e13726da0f
Пичаи и Маркус спорят: минимум десятилетие, слишком много «тупиков».
Хинтон и Харари пугают безработицей белых-воротничков.
Хуанг и Пичаи отвечают: задачи сменятся, а не исчезнут.
Альтман и Карапати продвигают AI-агентов как новый OS.
Бенджио считает, что агентность — лишний риск, нужен «без целей» научный ИИ.
Пичаи и Андрисен за гибкое регулирование «по ходу дела».
Бенджио и Харари требуют жёстких ограничений до запуска.
Альтман и Хуанг верят в «больше параметров = больше ума».
Чолле и Фэй-Фэй Ли: масштаб упирается в потолок, пора гибрид с символикой.
Мой AI проанализировал 50 интервью, которые дали топ-30 лидеров в AI за июнь. Анализ популярных тезисов, редкие мнения, противоречия разных людей и выводы, куда, кажется, все движется, здесь:
https://www.notion.so/AI-leadership-analysis-made-by-AI-June-2025-226fb93e7ab4804796e7e5e13726da0f
Andrew Kislov's Notion on Notion
AI leadership analysis made by AI, June 2025 | Notion
AI breakthroughs are arriving faster than ever—some weeks it feels like there’s a new landmark paper, model, or product demo every few days. The march toward Singularity-level change is no longer abstract; it’s playing out in real time.
❤15🔥10👍7😁1
Мой коллега по каналу Константин Сапроненков подогнал чудесное чтение, до которого, наконец, дошли руки) И хотя давно знал о теориях и моделях Ибн-Халдуна, их внимательное рассмотрение крайне интересно.
Итак, Ибн Халдун - без сомнений, первый футуролог в истории. Не социолог, не политолог - он создал комплексную модель прогнозирования социальных процессов на основе изучения арабо-берберского сообщества Северной Африки. И хотя в силу ряда причин, эта модель в других регионах и эпохах работает смазанно или частично - она (как и экологические модели, типа Лотка-Вольтерра) - база для построения моделей социальных теорий.
Не буду пересказывать (лучше почитать), именно он выявил четырех-тактовую модель смены элит, однако и пошел дальше - и нашел объяснение ("физическую природу") цикла. Для его описания он создал понятия, одно из них стало супер популярным в последнее время - "асабийя" (солидарность/спаянность), высокие значения которой он видел у берберов, и низкие - у городских арабов их потомков. При снижении "асабийи" города "расслаблялись", и их захватывала новая волна "варваров" - он пронаблюдал этот цикл в изучаемом регионе несколько раз, в других исторических эпохах и локациях он воспроизводился разово или прерывисто.
Самое интересное, и я это раньше не замечал, что в его интерпретации "асабийя" это не какое-то там "прогрессивно-чистое", против "погрязшего в пороках", а прямо - "деревенско-племенное" архаичное мышление, которое не понимает устройства городов и только ждет часа их разграбить. Самое интересно, что для самого Ибн-Халдуна реакционная и разрушительная роль асабийи была очевидна, и она была прямо противопоставлена рациональному учению Ислама о разумности индивида и его персональной ответственности за поступки, в противовес "стадным" инстинктам толп варваров.
Итак, мы слова возвращаемся к дихотомии коммунитарной архаики и персоналисткой рациональности и ответственности города. В этой связи поправлю Толкователя - выраженная "асабийя" российских элит - это не просто их "сплоченность", это их архаичность, попытка управлять сложным городским (по факту) сообществом деревенскими методами - приводящими к последовательной деградации институтов (что наблюдаем) и оттоку горожан зарубеж.
Применительно к миру вердикт понятен - деревня стремительно съеживается, и толп варваров разрушать города в большинстве стран нет. Но мы пока если не пограничники, то "недалеко ушли". Деревенского сообщества у нас мало (ну кроме мигрантов из Средней Азии), но вот деревенского мышления у начальство - хоть отбавляй, увы.
Итак, Ибн Халдун - без сомнений, первый футуролог в истории. Не социолог, не политолог - он создал комплексную модель прогнозирования социальных процессов на основе изучения арабо-берберского сообщества Северной Африки. И хотя в силу ряда причин, эта модель в других регионах и эпохах работает смазанно или частично - она (как и экологические модели, типа Лотка-Вольтерра) - база для построения моделей социальных теорий.
Не буду пересказывать (лучше почитать), именно он выявил четырех-тактовую модель смены элит, однако и пошел дальше - и нашел объяснение ("физическую природу") цикла. Для его описания он создал понятия, одно из них стало супер популярным в последнее время - "асабийя" (солидарность/спаянность), высокие значения которой он видел у берберов, и низкие - у городских арабов их потомков. При снижении "асабийи" города "расслаблялись", и их захватывала новая волна "варваров" - он пронаблюдал этот цикл в изучаемом регионе несколько раз, в других исторических эпохах и локациях он воспроизводился разово или прерывисто.
Самое интересное, и я это раньше не замечал, что в его интерпретации "асабийя" это не какое-то там "прогрессивно-чистое", против "погрязшего в пороках", а прямо - "деревенско-племенное" архаичное мышление, которое не понимает устройства городов и только ждет часа их разграбить. Самое интересно, что для самого Ибн-Халдуна реакционная и разрушительная роль асабийи была очевидна, и она была прямо противопоставлена рациональному учению Ислама о разумности индивида и его персональной ответственности за поступки, в противовес "стадным" инстинктам толп варваров.
Классический ислам однозначно и резко осуждает спаянность-асабиййа. Основной акцент исламской правовой и этической мысли — на "намерении" (ниййа), которое должно сопровождать любое действие. Намерение не может не быть, во-первых, продумано и сформировано самим человеком, а во-вторых, рационально обосновано: цели и интересы, на удовлетворение которых направлено действие, должны иметь благой характер и всегда идти на пользу человеку. Асабиййа действует в прямо противоположном направлении, лишая возможности рассуждать о цели действия и заставляя жертвовать жизнью (т.е. самым ценным) во имя не продуманных самостоятельно и, возможно, бессмысленных или вредных целей. В текстах классической эпохи 'асабиййа отождествляется либо связывается с периодом джахилиййа "[доисламского] невежества" (ислам же ассоциируется... с "торжеством знания"), с зулм "притеснением" (ислам — с 'адала "справедливостью"), с иттиба' ал-хава "следованием страстям" (ислам — с продуманностью любого действия и пользой от него, тогда как страсти навлекают, как правило, бедствия), с батил "пустым", "ложным" (ислам — с ал-хакк "истиной"). Как видим, оппозиция выражена как нельзя более ясно, и это правило резко отрицательного отношения к 'асабиййа в классический период не имеет, по-видимому, существенных исключений. 'Асабиййа ассоциировалась с прошлым, с тем, что преодолено исламом и не должно вернуться, а потому даже сам термин крайне редок в текстах классического периода: спаянность обсуждается скорее как воспоминание, а не как реальность.
Итак, мы слова возвращаемся к дихотомии коммунитарной архаики и персоналисткой рациональности и ответственности города. В этой связи поправлю Толкователя - выраженная "асабийя" российских элит - это не просто их "сплоченность", это их архаичность, попытка управлять сложным городским (по факту) сообществом деревенскими методами - приводящими к последовательной деградации институтов (что наблюдаем) и оттоку горожан зарубеж.
Применительно к миру вердикт понятен - деревня стремительно съеживается, и толп варваров разрушать города в большинстве стран нет. Но мы пока если не пограничники, то "недалеко ушли". Деревенского сообщества у нас мало (ну кроме мигрантов из Средней Азии), но вот деревенского мышления у начальство - хоть отбавляй, увы.
💯60👍25❤17🔥16 2
Ну, и чтобы не быть голословным, вот пример целенаправленного «упрощения» образования до уровня деревенской культуры. Найдите в этом списке экономику, социологию, психологию, все то, без чего сейчас невозможно строить ни машины, ни управление, ни продукты, ни сервисы. Такой вот Slave arts (в противовес Liberal Arts - «науки для свободных» в Риме)
Я хорошо помню канон «истмата», и насколько он огрублял и кастрировал мышление. К нам на физфак ЛГУ специально ездил читать лекции по литературе Аверинцев, и студенты забивали потоковую аудиторию битком - настолько это было ценнее и полезнее для мышления, чем «стандарт».
"В рамках новых образовательных стандартов закрепим для всех программ единое социогуманитарное ядро, в которое войдут 6 дисциплин - история, основы философии, русский язык, основы российской государственности, безопасность жизнедеятельности, физическая культура", - говорится в сообщении.
Я хорошо помню канон «истмата», и насколько он огрублял и кастрировал мышление. К нам на физфак ЛГУ специально ездил читать лекции по литературе Аверинцев, и студенты забивали потоковую аудиторию битком - настолько это было ценнее и полезнее для мышления, чем «стандарт».
РИА Новости
Минобрнауки введет обязательный перечень предметов в университетах
Минобрнауки РФ в рамках новой системы высшего образования во всех университетах страны введет обязательный перечень предметов, состоящий из шести дисциплин,... РИА Новости, 05.07.2025
🤯38❤10🔥8💯7
Хороший пример, куда может завести деревня в голове
Telegram
Зеленые Сланцы 🩴
Министр обороны Уганды (настоящий) вновь выдаёт интересный тезис. Есичо nyash на местном сленге это "женская попа".
Предыдущие серии: 1, 2, 3, 4
Предыдущие серии: 1, 2, 3, 4
🤯20🔥9 4😁3👍1
Андрея Гейма (нобель за графен) лишили гражданства Нидерландов! Но без паники - он просто получил британское чтобы получить статус рыцаря и приставку сэр. Так что он теперь Сэр Гейм 😂🧐
Но я вспомнил другую историю) в 2010 году совпали два обстоятельства в один почти день, Андрей получил Нобеля, а мы на следующий день со Сколково и Роснано объявляли о запуске первого в России инновационного форума «Открытые инновации». Пресс-конфа, мы там втроем, и Лешу Ситникова от Сколково спрашивает журналист «а приедет ли Гейм?» Леша очень дипломатичный и вообще классный, отвечает типа «конечно мы будем очень рады».
Журналист сразу после этого звонит Гейму. Еще раз - это утро после нобелевского банкета 🤣 В общем Гейм в весьма нецензурных выражениях объяснил что он думает вообще об этом всем (детали уже даже неполиткорректно воспроизводить) - и это выходит в СМИ как репортаж с прессухи))))
Было грустно и весело. Российская диаспора с удовольствием рвет со страной, когда ее привечают там титулами или деньгами. В отличие от индийской, китайской - любой другой, которая очень активно развивает свои проекты «на два дома». Даже в периоды «охлаждений». Собственно, в этом одна из причин взлета Китая. Впрочем, если бы это был не шутливый запрос про форум, а предложение Гейму, например, стать про-ректором МГУ или МФТИ (вполне по китайски), он бы даже с будуна наверняка бы ответил менее забористо. И думаю, это было бы правильно.
АПД: а вообще и ректором надо было бы предложить. Был бы первый ректор - нобелевский лауреат.
Но я вспомнил другую историю) в 2010 году совпали два обстоятельства в один почти день, Андрей получил Нобеля, а мы на следующий день со Сколково и Роснано объявляли о запуске первого в России инновационного форума «Открытые инновации». Пресс-конфа, мы там втроем, и Лешу Ситникова от Сколково спрашивает журналист «а приедет ли Гейм?» Леша очень дипломатичный и вообще классный, отвечает типа «конечно мы будем очень рады».
Журналист сразу после этого звонит Гейму. Еще раз - это утро после нобелевского банкета 🤣 В общем Гейм в весьма нецензурных выражениях объяснил что он думает вообще об этом всем (детали уже даже неполиткорректно воспроизводить) - и это выходит в СМИ как репортаж с прессухи))))
Было грустно и весело. Российская диаспора с удовольствием рвет со страной, когда ее привечают там титулами или деньгами. В отличие от индийской, китайской - любой другой, которая очень активно развивает свои проекты «на два дома». Даже в периоды «охлаждений». Собственно, в этом одна из причин взлета Китая. Впрочем, если бы это был не шутливый запрос про форум, а предложение Гейму, например, стать про-ректором МГУ или МФТИ (вполне по китайски), он бы даже с будуна наверняка бы ответил менее забористо. И думаю, это было бы правильно.
АПД: а вообще и ректором надо было бы предложить. Был бы первый ректор - нобелевский лауреат.
РБК
Нидерланды лишили гражданства российского нобелевского лауреата
Андрея Гейма лишили гражданства Нидерландов, которое он получил в 1990-е годы, после того как покинул СССР, пишет NYT. В 2010-м он и Константин Новоселов получили Нобелевскую премию по физике за
👏30❤13💯13🔥8👍1
Краткий конспект выступления в пятницу
Metro Москва
Футуролог Евгений Кузнецов: Как не остаться без работы в эпоху ИИ
Образование и медицина в эпоху ИИ: вызовы и решения. Города будущего и миграция: чему учит урбанизация. ИИ в повседневной жизни: как технологии меняют наш быт. Революция в здравоохранении: ИИ против рака и старости. Супергорода и роботы: сценарий ближайших…
🔥16👍6❤5
Новый привет врачам от ИИ-докторов. На этот раз исследователи создали сложную архитектуру ИИ-агентов (консилиум ИИ-врачей), который способен не только ставить диагнозы вчетверо лучше кожанных, но еще и заботиться об оптимизации расходов на диагностику (спойлер - ИИ без анализов работает лучше врачей с анализами и обследованиями за несколько тысяч долларов ).
Авторы статьи поросята конечно - обозначили результаты врачей на диаграмме крестиками - "как грубо!" (но справедливо увы). Предметом анализа были 304 диагностически сложных клинико-патологических случаев из публикаций New England Journal of Medicine.
Оба описанных инструмента повышения качества ИИ я применяю для своих задач уже несколько месяцев, и они потрясающе эффективны. Первый - создания процедуры общения (тактов, шагов, разделения стадий разбора тема через шаблон) - не просто задать вопрос прочитать ответ, а провести дискуссию с разбором, устроить спор ии-специалистов, прогнать выводы одного чрез критику и редактуру другого и тп - это разбивает проблемы узких контекстов и выводов, вытекающих из вопросов.
Второй метод - сложная архитектура ИИ-команды (конкурентные ИИ-агенты). Я им вообще создаю стабильные роли,CV, списки публикаций и опыта - это помогает им удерживать контекст и структуру роли. В исследовании были созданы следующие типы "докторов":
На первом графике в начале под Microsoft имеется в виду работа комплексной команды ИИ (с разными моделями, их эффективность внутри командной работы сравнивается на втором графике), а графики с упоминаем моделей - это однопроходные результаты разных ИИ. По качеству ИИ-одиночки не сильно хуже, но коллектив сильно экономит деньги.
Тут важен дисклеймер - вообще американская и британская система врачебной помощи далека от совершенства. "Парацетомол, вода и диета" - типичная рекомендация. В России диагностика стоит значительно (почти на порядок) дешевле, и врачи тут ей даже злоупотребляют (гипердиагностика). Это кстати открывает нишу потенциального медицинского туризма в Россию (Турция и Таиланд ее очень успешно развивают это), но это отдельный вопрос, почему мы не умеем в экспорт услуг.
Но в любом случае - ИИ привносит в медицину радикальную революцию, и радикально демократизирует высококачественные медицинские услуги. Врач из провинциального меда уже не будет опасен для здоровья в связке с таким ИИ, поскольку будет консультировать как столичное светило.
Авторы статьи поросята конечно - обозначили результаты врачей на диаграмме крестиками - "как грубо!" (но справедливо увы). Предметом анализа были 304 диагностически сложных клинико-патологических случаев из публикаций New England Journal of Medicine.
В сочетании с моделью o3 OpenAI MAI-DxO достигает 80% диагностической точности — в четыре раза выше, чем средний показатель врачей общей практики в 20%. MAI-DxO также снижает затраты на диагностику на 20% по сравнению с врачами и на 70% по сравнению с одиночным o3. При настройке на максимальную точность MAI-DxO достигает 85,5% точности.
Оба описанных инструмента повышения качества ИИ я применяю для своих задач уже несколько месяцев, и они потрясающе эффективны. Первый - создания процедуры общения (тактов, шагов, разделения стадий разбора тема через шаблон) - не просто задать вопрос прочитать ответ, а провести дискуссию с разбором, устроить спор ии-специалистов, прогнать выводы одного чрез критику и редактуру другого и тп - это разбивает проблемы узких контекстов и выводов, вытекающих из вопросов.
Второй метод - сложная архитектура ИИ-команды (конкурентные ИИ-агенты). Я им вообще создаю стабильные роли,CV, списки публикаций и опыта - это помогает им удерживать контекст и структуру роли. В исследовании были созданы следующие типы "докторов":
• Доктор Гипотеза – поддерживает дифференциальную диагностику с ранжированием вероятностей по трем наиболее вероятным состояниям, обновляя вероятности байесовским способом после каждого нового открытия.
• Dr. Test-Chooser – выбирает до трех диагностических тестов за раунд, которые максимально различают ведущие гипотезы.
• Доктор Челленджер — выступает в роли адвоката дьявола, выявляя потенциальные ошибки привязки, выявляя противоречивые доказательства и предлагая тесты, которые могут опровергнуть текущий ведущий диагноз.
• Доктор Стюардшип – обеспечивает экономически обоснованное медицинское обслуживание, выступая за более дешевые альтернативы, если они диагностически эквивалентны, и налагая вето на малоинформативные дорогостоящие тесты.
• Dr. Checklist – осуществляет скрытый контроль качества, чтобы гарантировать, что модель генерирует допустимые названия тестов и поддерживает внутреннюю согласованность в рассуждениях комиссии.
На первом графике в начале под Microsoft имеется в виду работа комплексной команды ИИ (с разными моделями, их эффективность внутри командной работы сравнивается на втором графике), а графики с упоминаем моделей - это однопроходные результаты разных ИИ. По качеству ИИ-одиночки не сильно хуже, но коллектив сильно экономит деньги.
Тут важен дисклеймер - вообще американская и британская система врачебной помощи далека от совершенства. "Парацетомол, вода и диета" - типичная рекомендация. В России диагностика стоит значительно (почти на порядок) дешевле, и врачи тут ей даже злоупотребляют (гипердиагностика). Это кстати открывает нишу потенциального медицинского туризма в Россию (Турция и Таиланд ее очень успешно развивают это), но это отдельный вопрос, почему мы не умеем в экспорт услуг.
Но в любом случае - ИИ привносит в медицину радикальную революцию, и радикально демократизирует высококачественные медицинские услуги. Врач из провинциального меда уже не будет опасен для здоровья в связке с таким ИИ, поскольку будет консультировать как столичное светило.
🔥44 20❤10💯5😁2
Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
❤28🔥18👍7