На ранних этапах развития ChatGPT произошёл странный инцидент: модель внезапно перестала отвечать на хорватском языке.
ChatGPT и подобные модели обучаются с помощью метода RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе человеческой обратной связи. В этом методе используются кнопки upvote/downvote в интерфейсах LLM. Модель учится на том, какие ответы люди оценивают положительно, а какие — отрицательно.
Короче, когда хорваты оказались более критичны в оценках, чем носители других языков, модель интерпретировала это как «мои ответы на этом языке плохие, лучше вообще не отвечать». И «забыла» хорватский.
На картинке ниже — иллюстрация культурных различий в оценке качества через призму нормального распределения.
Американцы называют то, что объективно является средним, "This is awesome!". Даже откровенно плохие вещи получают оценку "It's a good start". Позитивный оптимизм и склонность к преувеличению положительных качеств — характерная культурная особенность.
Другое дело восточные европейцы — большая часть того, что объективно хорошо, попадает в категорию «что за мусор?». Даже действительно хорошие вещи получают в лучшем случае «мне не нравится» или скупое «ну так себе».
Неудивительно, что никто в OpenAI долго не мог понять, что случилось с ChatGPT, но мы-то с вами прекрасно понимаем хорватов, не правда ли? :)
ChatGPT и подобные модели обучаются с помощью метода RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе человеческой обратной связи. В этом методе используются кнопки upvote/downvote в интерфейсах LLM. Модель учится на том, какие ответы люди оценивают положительно, а какие — отрицательно.
Короче, когда хорваты оказались более критичны в оценках, чем носители других языков, модель интерпретировала это как «мои ответы на этом языке плохие, лучше вообще не отвечать». И «забыла» хорватский.
На картинке ниже — иллюстрация культурных различий в оценке качества через призму нормального распределения.
Американцы называют то, что объективно является средним, "This is awesome!". Даже откровенно плохие вещи получают оценку "It's a good start". Позитивный оптимизм и склонность к преувеличению положительных качеств — характерная культурная особенность.
Другое дело восточные европейцы — большая часть того, что объективно хорошо, попадает в категорию «что за мусор?». Даже действительно хорошие вещи получают в лучшем случае «мне не нравится» или скупое «ну так себе».
Неудивительно, что никто в OpenAI долго не мог понять, что случилось с ChatGPT, но мы-то с вами прекрасно понимаем хорватов, не правда ли? :)
😁19❤8👍3👏2
Макс Вульф из BuzzFeed опубликовал подробный разбор Nano Banana, в котором обнаружил критическую особенность — капслок типа MUST в промптах резко улучшает точность выполнения инструкций.
Nano Banana обучена не только на описаниях изображений, но и на репозиториях кода. Это принципиальное отличие от старых моделей, Нано Банана читает промпты как структурированные инструкции, а не как описательный текст. И это очень круто!
Вульф тестировал абсурдно сложные промпты — например, три котёнка с конкретными характеристиками:
- Мех определённых hex-цветов
- Гетерохромные глаза, цвета которых соответствуют цветам меха
- Позиционирование по правилу третей
- Специфичная одежда для каждого
Модель выполнила каждое требование точно, результат — на картинке выше :)
Оптимальная структура промпта для Nano Banana
1. Markdown-списки с дефисами для структурирования требований
2. MUST заглавными буквами перед критичными инструкциями
3. Композиционные ограничения типа "Pulitzer Prize-winning cover photo for The New York Times" для улучшения качества
4. Негативные инструкции — "NEVER include any text or watermarks"
Еще интересное. Вульф "случайно" извлёк системный промпт Nano Banana и обнаружил, что инженеры Google используют угрозы вроде YOU WILL BE PENALIZED для улучшения поведения модели.
Короче, абьюз в промптах официально одобрен Google :)
—
Пономарь
Nano Banana обучена не только на описаниях изображений, но и на репозиториях кода. Это принципиальное отличие от старых моделей, Нано Банана читает промпты как структурированные инструкции, а не как описательный текст. И это очень круто!
Вульф тестировал абсурдно сложные промпты — например, три котёнка с конкретными характеристиками:
- Мех определённых hex-цветов
- Гетерохромные глаза, цвета которых соответствуют цветам меха
- Позиционирование по правилу третей
- Специфичная одежда для каждого
Модель выполнила каждое требование точно, результат — на картинке выше :)
Оптимальная структура промпта для Nano Banana
1. Markdown-списки с дефисами для структурирования требований
2. MUST заглавными буквами перед критичными инструкциями
3. Композиционные ограничения типа "Pulitzer Prize-winning cover photo for The New York Times" для улучшения качества
4. Негативные инструкции — "NEVER include any text or watermarks"
Еще интересное. Вульф "случайно" извлёк системный промпт Nano Banana и обнаружил, что инженеры Google используют угрозы вроде YOU WILL BE PENALIZED для улучшения поведения модели.
Короче, абьюз в промптах официально одобрен Google :)
—
Пономарь
❤7👍5😁1
Я пару недель назад закончил читать «Я понял Японию» Раевского, и хотя книжка довольно поверхностная, свежая волна интереса к моментам японской истории у меня снова проснулась.
И тут как раз вышел Last Samurai Standing – сериал про то, как 292 самурая дерутся насмерть за деньги под взглядом богачей — прямо как в «Игре в Кальмара». И тоже Netflix, разумеется. Но тут дело происходит в 1878 году, когда самураи оказались никому не нужны после реформ Мэйдзи, и вместо детских игр здесь настоящие дуэли с катанами.
Короче, батл-рояль про самураев, который трудно не сравнивать с «Игрой в кальмара», но все равно это другое кино — здесь меньше психологии и больше, гораздо больше сражений на мечах.
И тут как раз вышел Last Samurai Standing – сериал про то, как 292 самурая дерутся насмерть за деньги под взглядом богачей — прямо как в «Игре в Кальмара». И тоже Netflix, разумеется. Но тут дело происходит в 1878 году, когда самураи оказались никому не нужны после реформ Мэйдзи, и вместо детских игр здесь настоящие дуэли с катанами.
Короче, батл-рояль про самураев, который трудно не сравнивать с «Игрой в кальмара», но все равно это другое кино — здесь меньше психологии и больше, гораздо больше сражений на мечах.
❤5
Есть такой пласт придонной юридической жизни — компании-вымогатели денег за нарушение авторских прав. Подписывают договоры со стоковыми фотографами и затем занимаются массовой рассылкой досудебок «в интересах клиента».
И вот на сайте очередного такого «защитника» используются премиум-иллюстрации с freepik, где по условиям лицензии надо обязательно указывать источник. И никаких упоминаний freepik, конечно же, нет.
Пожалуй, самое смешное, что я видел сегодня.
И вот на сайте очередного такого «защитника» используются премиум-иллюстрации с freepik, где по условиям лицензии надо обязательно указывать источник. И никаких упоминаний freepik, конечно же, нет.
Пожалуй, самое смешное, что я видел сегодня.
😁15❤1
Гугл выкатывает новую версию Gemini, я немного поковырял ее в AI Studio, пока впечатления очень хорошие. Думает быстро, большие файлы жует без вопросов, результаты генерации весьма, весьма неплохие.
Google продолжает догонять OpenAI и Anthropic.
Попробовать Gemini 3 бесплатно можно тут.
Google продолжает догонять OpenAI и Anthropic.
Попробовать Gemini 3 бесплатно можно тут.
❤6👍3🔥2
Forwarded from Мы и Жо / медиа и журналистика
Хорошее. Две недели назад Coca-Cola выложила свой классический рождественский рекламный ролик, переснятый с помощью ИИ
Но кое-что пошло не так
Но кое-что пошло не так
😁7👏2
В Notion Calendar (который я в прошлом уже пару раз рекомендовал как свой основной инструмент для работы с несколькими Google Calendars) наконец-то снова стали появляться интересные функции.
Новая киллер-фича — подобие синхронизации событий в двух календарях, можно в двух календарях поставить одновременный блок занятых слотов. Я использую два аккаунта Google (а порой бывает, что и больше) — один для личных дел и всего, что не связано с Палиндромом, ну и второй — рабочий палинромовский. Теперь случаев, когда поставили в одном календаре, не посмотрев в другой, точно станет меньше.
Новая киллер-фича — подобие синхронизации событий в двух календарях, можно в двух календарях поставить одновременный блок занятых слотов. Я использую два аккаунта Google (а порой бывает, что и больше) — один для личных дел и всего, что не связано с Палиндромом, ну и второй — рабочий палинромовский. Теперь случаев, когда поставили в одном календаре, не посмотрев в другой, точно станет меньше.
❤5👍1
Как только я купил себе новый ноут на M4, Apple, конечно же, сразу выпустила M5. И судя по первым обзорам, все впечатлены, хотя большинство разборов сводятся к «цифры выросли!».
Я смотрю на это иначе. M5 — это заявление Apple, что для AI важно не просто больше мощности, а правильная архитектура под задачу.
M5 превращает локальные LLM из экспериментальной фичи для гиков в рабочий инструмент, из «ну, технически оно работает» в «реально можно использовать каждый день».
Пока Apple проигрывает в софте — никому в голову нынче не придет пользоваться Сири для задач сложнее чем поставить таймер, пока варятся пельмени.
Зато в железе ставка на AI-first дизайн чипов, проектирование с нуля под эти нагрузки — работает лучше, чем у конкурентов.
И хотя мой Air временами не вытягивает какой-нибудь локальный Whisper для расшифровки звонков в реальном времени, я не призываю всех бежать обновляться. Но если вы работаете с локальными моделями регулярно — разницу вы заметите.
P.S. Забавно наблюдать, как индустрия постепенно возвращается к локальным вычислениям. Десять лет назад всех тащили в облако, теперь — обратно на устройства, только уже с AI на борту.
—
Пономарь
Я смотрю на это иначе. M5 — это заявление Apple, что для AI важно не просто больше мощности, а правильная архитектура под задачу.
M5 превращает локальные LLM из экспериментальной фичи для гиков в рабочий инструмент, из «ну, технически оно работает» в «реально можно использовать каждый день».
Пока Apple проигрывает в софте — никому в голову нынче не придет пользоваться Сири для задач сложнее чем поставить таймер, пока варятся пельмени.
Зато в железе ставка на AI-first дизайн чипов, проектирование с нуля под эти нагрузки — работает лучше, чем у конкурентов.
И хотя мой Air временами не вытягивает какой-нибудь локальный Whisper для расшифровки звонков в реальном времени, я не призываю всех бежать обновляться. Но если вы работаете с локальными моделями регулярно — разницу вы заметите.
P.S. Забавно наблюдать, как индустрия постепенно возвращается к локальным вычислениям. Десять лет назад всех тащили в облако, теперь — обратно на устройства, только уже с AI на борту.
—
Пономарь
👍7💯2
Так, в последний раз. Хватит демонизировать длинные тире! И кавычки-ёлочки. И букву ё.
Это не (всегда) признак нейронок! Есть люди, которые их ставят принципиально.
Это не (всегда) признак нейронок! Есть люди, которые их ставят принципиально.
❤26💯10😎5
Исследователи из Cognizant AI получили миллион (!) последовательных шагов от AI без единой ошибки. Забавно, что секрет оказался не в более продвинутой модели — они использовали обычный GPT-4.1-mini.
Всё дело в декомпозиции. Вместо одного сложного промпта — цепочка микрозадач, каждая настолько простая, что даже дешёвая модель справляется идеально.
Судя по моему опыту работы с AI в продакшене, это работает везде, где критична точность.
Берёшь задачу «напиши маркетинговый план» и режешь на шаги:
1. аудитория
2. боли
3. каналы
4. месседжи для каждого канала.
Для важных решений прогоняешь каждый шаг 2-3 раза и сравниваешь ответы — простейший механизм голосования ловит ошибки, которые потом множатся.
В итоге получается парадокс: лучше 10 примитивных промптов, чем один сложный. Декомпозиция задачи бьёт изощрённость модели.
Но человек ленив, и большинство (я и сам не без греха) всё ещё пытается найти самую умную модель вместо того, чтобы научиться правильно формулировать задачу.
—
Пономарь
Всё дело в декомпозиции. Вместо одного сложного промпта — цепочка микрозадач, каждая настолько простая, что даже дешёвая модель справляется идеально.
Судя по моему опыту работы с AI в продакшене, это работает везде, где критична точность.
Берёшь задачу «напиши маркетинговый план» и режешь на шаги:
1. аудитория
2. боли
3. каналы
4. месседжи для каждого канала.
Для важных решений прогоняешь каждый шаг 2-3 раза и сравниваешь ответы — простейший механизм голосования ловит ошибки, которые потом множатся.
В итоге получается парадокс: лучше 10 примитивных промптов, чем один сложный. Декомпозиция задачи бьёт изощрённость модели.
Но человек ленив, и большинство (я и сам не без греха) всё ещё пытается найти самую умную модель вместо того, чтобы научиться правильно формулировать задачу.
—
Пономарь
🔥8🎄4
Помните историю из книг Кови про двух дровосеков? Один рубит без остановки, второй периодически прерывается. К концу дня второй нарубил вдвое больше, потому что останавливался, чтобы наточить пилу.
В школе нас поощряли за выполнение работы. Не важно, зачем она нужна — просто делай. В школе НЕ поощряли вопросы типа "А зачем я это делаю?". В реальной жизни этот вопрос — главный.
С сожалением замечаю в себе и многих знакомых — большинство занятых людей пилят тупым инструментом. Они слишком заняты, чтобы остановиться и понять, что вообще пилят не то дерево.
—
Пономарь
В школе нас поощряли за выполнение работы. Не важно, зачем она нужна — просто делай. В школе НЕ поощряли вопросы типа "А зачем я это делаю?". В реальной жизни этот вопрос — главный.
С сожалением замечаю в себе и многих знакомых — большинство занятых людей пилят тупым инструментом. Они слишком заняты, чтобы остановиться и понять, что вообще пилят не то дерево.
—
Пономарь
❤17👍9💯4🤔1
Центр Земли моложе её поверхности на 2,5 года
Это не заголовок из жёлтой прессы, а физика — Эйнштейн, общая теория относительности, вот это всё. Фейнман ещё в 60-х предположил, что ядро моложе, но он считал, что на несколько дней. Датские физики пересчитали точнее.
Как мы знаем со школы (знаем же, да?) массивные объекты искривляют пространство-время и замедляют ход времени рядом с собой. Чем глубже к центру Земли — тем сильнее гравитация, тем медленнее идут часы. За 4,5 миллиарда лет эти микроскопические доли секунды накопились в 2,5 года разницы между ядром и поверхностью.
Практического смысла в этом знании ноль: геологические процессы влияют на состояние планеты куда сильнее. Но это еще одно доказательство того, что гравитация буквально замедляет время. Наверное, когда-нибудь мы научимся использовать это в практических целях.
Ну а пока что, когда в следующий раз будете вспоминать свой возраст и думать, что внутри-то вы моложе, помните, даже наша планета точно такая же.
UPD. «Новости», оказывается 10 лет, так что пост переезжает в рубрику Today I Learned…
—
Пономарь
Это не заголовок из жёлтой прессы, а физика — Эйнштейн, общая теория относительности, вот это всё. Фейнман ещё в 60-х предположил, что ядро моложе, но он считал, что на несколько дней. Датские физики пересчитали точнее.
Как мы знаем со школы (знаем же, да?) массивные объекты искривляют пространство-время и замедляют ход времени рядом с собой. Чем глубже к центру Земли — тем сильнее гравитация, тем медленнее идут часы. За 4,5 миллиарда лет эти микроскопические доли секунды накопились в 2,5 года разницы между ядром и поверхностью.
Практического смысла в этом знании ноль: геологические процессы влияют на состояние планеты куда сильнее. Но это еще одно доказательство того, что гравитация буквально замедляет время. Наверное, когда-нибудь мы научимся использовать это в практических целях.
Ну а пока что, когда в следующий раз будете вспоминать свой возраст и думать, что внутри-то вы моложе, помните, даже наша планета точно такая же.
UPD. «Новости», оказывается 10 лет, так что пост переезжает в рубрику Today I Learned…
—
Пономарь
❤10👍7
Поразмышлял для sfera.fm о текущем положении дел ИИ в бизнесе, куда уже можно совать нейронку, а куда пока не стоит.
Большие корпорации уже запустили первые рабочие продукты, но до глубокого внедрения во все процессы еще очень далеко. МСБ тоже в активном поиске, как оседлать эту волну прогресса и не утонуть в хайпе.
По-моему, получилось толково.
А 3 декабря проведу в Питере мастер-класс, где расскажу, можно использовать нейронки для личной продуктивности, и как по моему мнению это может стать мостиком к внедрению ИИ на уровне бизнеса. Если интересно и будете в городе — приходите, вот тут регистрация.
—
Пономарь
Большие корпорации уже запустили первые рабочие продукты, но до глубокого внедрения во все процессы еще очень далеко. МСБ тоже в активном поиске, как оседлать эту волну прогресса и не утонуть в хайпе.
По-моему, получилось толково.
А 3 декабря проведу в Питере мастер-класс, где расскажу, можно использовать нейронки для личной продуктивности, и как по моему мнению это может стать мостиком к внедрению ИИ на уровне бизнеса. Если интересно и будете в городе — приходите, вот тут регистрация.
—
Пономарь
1👍7👎1
Нашел когда-то для себя самое внятное объяснение, зачем вообще нужен менеджмент среднего звена.
Суть работы менеджера — отправлять контекст вниз, а информацию вверх.
У линейных сотрудников максимум информации — они знают проект лучше всех, разработчики понимают технические детали на уровне кода, редакторы — на уровне конкретных кусков отдельных текстов. У топ-менеджеров максимум контекста — они понимают бизнес-цели, стратегию, почему мы вообще делаем то, что делаем, как это связано с продажами и планами на месяц, год, пять лет вперёд.
Проблема в том, что исполнители принимают решения с кучей информации, но без контекста, и оптимизируют локально — что лучше для них и их команды прямо сейчас. Чаще всего это дает нормальные результаты, но иногда приводит к полной ерунде.
Рассмотрим конкретный пример. Команда разработки несколько недель пилит кастомную аутентификацию для сайта. А в соседнем отделе в это время обсуждают с поставщиком готовое решение, которое закроет все потребности. Командам никто не дал общий контекст и одна из них в любом случае просто потратит время впустую. Руководитель не донёс контекст, хотя это была буквально его работа.
И наоборот, руководитель не знает, что реально происходит в коде, какие есть технические ограничения, где узкие места. Ему нужна информация снизу, чтобы принимать адекватные решения.
В общем, вот и вся работа менеджера — собирать информацию от репортов, синтезировать, пушить наверх. Собирать контекст от своих менеджеров и от пиров, спускать вниз. И не пропускать этап синтеза! Грамотная переработка информации на язык получателя это 90 процентов успеха. А то и все 99. Если что-то из этого не происходит, значит, менеджер просто не работает.
—
Пономарь
Суть работы менеджера — отправлять контекст вниз, а информацию вверх.
У линейных сотрудников максимум информации — они знают проект лучше всех, разработчики понимают технические детали на уровне кода, редакторы — на уровне конкретных кусков отдельных текстов. У топ-менеджеров максимум контекста — они понимают бизнес-цели, стратегию, почему мы вообще делаем то, что делаем, как это связано с продажами и планами на месяц, год, пять лет вперёд.
Проблема в том, что исполнители принимают решения с кучей информации, но без контекста, и оптимизируют локально — что лучше для них и их команды прямо сейчас. Чаще всего это дает нормальные результаты, но иногда приводит к полной ерунде.
Рассмотрим конкретный пример. Команда разработки несколько недель пилит кастомную аутентификацию для сайта. А в соседнем отделе в это время обсуждают с поставщиком готовое решение, которое закроет все потребности. Командам никто не дал общий контекст и одна из них в любом случае просто потратит время впустую. Руководитель не донёс контекст, хотя это была буквально его работа.
И наоборот, руководитель не знает, что реально происходит в коде, какие есть технические ограничения, где узкие места. Ему нужна информация снизу, чтобы принимать адекватные решения.
В общем, вот и вся работа менеджера — собирать информацию от репортов, синтезировать, пушить наверх. Собирать контекст от своих менеджеров и от пиров, спускать вниз. И не пропускать этап синтеза! Грамотная переработка информации на язык получателя это 90 процентов успеха. А то и все 99. Если что-то из этого не происходит, значит, менеджер просто не работает.
—
Пономарь
13❤13💯10👍2
MIT запустил Project Iceberg — систему, которая отслеживает в реальном времени, какие профессии AI уже может автоматизировать сегодня. По сути это система раннего предупреждения, которую Штаты используют для планирования загрузки рабочей силы.
11.7% рабочей силы технически заменяемы прямо сейчас и это оценка текущих возможностей технологий, а не прогноз на условный 2030-й. Из очевидного —в основном IT, но под водой — финансы, здравоохранение, административная работа, профессиональные услуги.
Ключевой фактор роста автоматизации — запуск Anthropic в конце 2024-го Model Context Protocol (MCP, стандарт, который позволяет AI подключаться к любым инструментам). Раньше каждая интеграция требовала кастомного кода. Теперь AI-агенты могут сами заходить в базы данных, работать с таблицами, вызывать API. К марту 2025 уже существовало 7950+ MCP-серверов и рост продолжается. Это открыло для AI возможность выполнять ценные задачи, которые раньше делали люди.
Образование — главный фактор выживания наций в периоды трансформации. Но вот успеют ли образовательные системы и программы переподготовки за темпом изменений.
—
Пономарь
11.7% рабочей силы технически заменяемы прямо сейчас и это оценка текущих возможностей технологий, а не прогноз на условный 2030-й. Из очевидного —в основном IT, но под водой — финансы, здравоохранение, административная работа, профессиональные услуги.
Ключевой фактор роста автоматизации — запуск Anthropic в конце 2024-го Model Context Protocol (MCP, стандарт, который позволяет AI подключаться к любым инструментам). Раньше каждая интеграция требовала кастомного кода. Теперь AI-агенты могут сами заходить в базы данных, работать с таблицами, вызывать API. К марту 2025 уже существовало 7950+ MCP-серверов и рост продолжается. Это открыло для AI возможность выполнять ценные задачи, которые раньше делали люди.
Образование — главный фактор выживания наций в периоды трансформации. Но вот успеют ли образовательные системы и программы переподготовки за темпом изменений.
—
Пономарь
👍2
Самое интересное, о чем я писал в ноябре:
1. Про повышения и принцип Питера
2. Как ChatGPT внезапно забыл хорватский
3. История про выдуманный транскрипт конференции
4. Про точить пилу, задавать вопросы и не выгорать
5. Файлы переживут приложения — о долговечности идей
1. Про повышения и принцип Питера
2. Как ChatGPT внезапно забыл хорватский
3. История про выдуманный транскрипт конференции
4. Про точить пилу, задавать вопросы и не выгорать
5. Файлы переживут приложения — о долговечности идей
❤5
Спотифай вежливо назвал меня человеком без музыкального вкуса, а я и не спорю. Но кроме первого трека я ответственность за свой плейлист не признаю. Это все алгоритмы!
😁11❤8
Вот от кого я точно не ожидал классических медийных спецпроектов, так это от Perplexity.
А они вдруг фиганули спец/коллабу с самим Криштиану Роналду.
Все интерактивные элементы на странице отправляют пользователя читать выдачу Perplexity по соответствующей теме/запросу. Не поленитесь долистать до футбольного поля, там прикольная визуализация точек, с которых Криштианушка забивал свои голы (точки тоже интерактивные).
Ну прикольно, прикольно.
А они вдруг фиганули спец/коллабу с самим Криштиану Роналду.
Все интерактивные элементы на странице отправляют пользователя читать выдачу Perplexity по соответствующей теме/запросу. Не поленитесь долистать до футбольного поля, там прикольная визуализация точек, с которых Криштианушка забивал свои голы (точки тоже интерактивные).
Ну прикольно, прикольно.
🔥7💯2