Исследователи из Cognizant AI получили миллион (!) последовательных шагов от AI без единой ошибки. Забавно, что секрет оказался не в более продвинутой модели — они использовали обычный GPT-4.1-mini.
Всё дело в декомпозиции. Вместо одного сложного промпта — цепочка микрозадач, каждая настолько простая, что даже дешёвая модель справляется идеально.
Судя по моему опыту работы с AI в продакшене, это работает везде, где критична точность.
Берёшь задачу «напиши маркетинговый план» и режешь на шаги:
1. аудитория
2. боли
3. каналы
4. месседжи для каждого канала.
Для важных решений прогоняешь каждый шаг 2-3 раза и сравниваешь ответы — простейший механизм голосования ловит ошибки, которые потом множатся.
В итоге получается парадокс: лучше 10 примитивных промптов, чем один сложный. Декомпозиция задачи бьёт изощрённость модели.
Но человек ленив, и большинство (я и сам не без греха) всё ещё пытается найти самую умную модель вместо того, чтобы научиться правильно формулировать задачу.
—
Пономарь
Всё дело в декомпозиции. Вместо одного сложного промпта — цепочка микрозадач, каждая настолько простая, что даже дешёвая модель справляется идеально.
Судя по моему опыту работы с AI в продакшене, это работает везде, где критична точность.
Берёшь задачу «напиши маркетинговый план» и режешь на шаги:
1. аудитория
2. боли
3. каналы
4. месседжи для каждого канала.
Для важных решений прогоняешь каждый шаг 2-3 раза и сравниваешь ответы — простейший механизм голосования ловит ошибки, которые потом множатся.
В итоге получается парадокс: лучше 10 примитивных промптов, чем один сложный. Декомпозиция задачи бьёт изощрённость модели.
Но человек ленив, и большинство (я и сам не без греха) всё ещё пытается найти самую умную модель вместо того, чтобы научиться правильно формулировать задачу.
—
Пономарь
🔥8🎄4
Помните историю из книг Кови про двух дровосеков? Один рубит без остановки, второй периодически прерывается. К концу дня второй нарубил вдвое больше, потому что останавливался, чтобы наточить пилу.
В школе нас поощряли за выполнение работы. Не важно, зачем она нужна — просто делай. В школе НЕ поощряли вопросы типа "А зачем я это делаю?". В реальной жизни этот вопрос — главный.
С сожалением замечаю в себе и многих знакомых — большинство занятых людей пилят тупым инструментом. Они слишком заняты, чтобы остановиться и понять, что вообще пилят не то дерево.
—
Пономарь
В школе нас поощряли за выполнение работы. Не важно, зачем она нужна — просто делай. В школе НЕ поощряли вопросы типа "А зачем я это делаю?". В реальной жизни этот вопрос — главный.
С сожалением замечаю в себе и многих знакомых — большинство занятых людей пилят тупым инструментом. Они слишком заняты, чтобы остановиться и понять, что вообще пилят не то дерево.
—
Пономарь
❤17👍9💯4🤔1
Центр Земли моложе её поверхности на 2,5 года
Это не заголовок из жёлтой прессы, а физика — Эйнштейн, общая теория относительности, вот это всё. Фейнман ещё в 60-х предположил, что ядро моложе, но он считал, что на несколько дней. Датские физики пересчитали точнее.
Как мы знаем со школы (знаем же, да?) массивные объекты искривляют пространство-время и замедляют ход времени рядом с собой. Чем глубже к центру Земли — тем сильнее гравитация, тем медленнее идут часы. За 4,5 миллиарда лет эти микроскопические доли секунды накопились в 2,5 года разницы между ядром и поверхностью.
Практического смысла в этом знании ноль: геологические процессы влияют на состояние планеты куда сильнее. Но это еще одно доказательство того, что гравитация буквально замедляет время. Наверное, когда-нибудь мы научимся использовать это в практических целях.
Ну а пока что, когда в следующий раз будете вспоминать свой возраст и думать, что внутри-то вы моложе, помните, даже наша планета точно такая же.
UPD. «Новости», оказывается 10 лет, так что пост переезжает в рубрику Today I Learned…
—
Пономарь
Это не заголовок из жёлтой прессы, а физика — Эйнштейн, общая теория относительности, вот это всё. Фейнман ещё в 60-х предположил, что ядро моложе, но он считал, что на несколько дней. Датские физики пересчитали точнее.
Как мы знаем со школы (знаем же, да?) массивные объекты искривляют пространство-время и замедляют ход времени рядом с собой. Чем глубже к центру Земли — тем сильнее гравитация, тем медленнее идут часы. За 4,5 миллиарда лет эти микроскопические доли секунды накопились в 2,5 года разницы между ядром и поверхностью.
Практического смысла в этом знании ноль: геологические процессы влияют на состояние планеты куда сильнее. Но это еще одно доказательство того, что гравитация буквально замедляет время. Наверное, когда-нибудь мы научимся использовать это в практических целях.
Ну а пока что, когда в следующий раз будете вспоминать свой возраст и думать, что внутри-то вы моложе, помните, даже наша планета точно такая же.
UPD. «Новости», оказывается 10 лет, так что пост переезжает в рубрику Today I Learned…
—
Пономарь
❤10👍7
Поразмышлял для sfera.fm о текущем положении дел ИИ в бизнесе, куда уже можно совать нейронку, а куда пока не стоит.
Большие корпорации уже запустили первые рабочие продукты, но до глубокого внедрения во все процессы еще очень далеко. МСБ тоже в активном поиске, как оседлать эту волну прогресса и не утонуть в хайпе.
По-моему, получилось толково.
А 3 декабря проведу в Питере мастер-класс, где расскажу, можно использовать нейронки для личной продуктивности, и как по моему мнению это может стать мостиком к внедрению ИИ на уровне бизнеса. Если интересно и будете в городе — приходите, вот тут регистрация.
—
Пономарь
Большие корпорации уже запустили первые рабочие продукты, но до глубокого внедрения во все процессы еще очень далеко. МСБ тоже в активном поиске, как оседлать эту волну прогресса и не утонуть в хайпе.
По-моему, получилось толково.
А 3 декабря проведу в Питере мастер-класс, где расскажу, можно использовать нейронки для личной продуктивности, и как по моему мнению это может стать мостиком к внедрению ИИ на уровне бизнеса. Если интересно и будете в городе — приходите, вот тут регистрация.
—
Пономарь
1👍7👎1
Нашел когда-то для себя самое внятное объяснение, зачем вообще нужен менеджмент среднего звена.
Суть работы менеджера — отправлять контекст вниз, а информацию вверх.
У линейных сотрудников максимум информации — они знают проект лучше всех, разработчики понимают технические детали на уровне кода, редакторы — на уровне конкретных кусков отдельных текстов. У топ-менеджеров максимум контекста — они понимают бизнес-цели, стратегию, почему мы вообще делаем то, что делаем, как это связано с продажами и планами на месяц, год, пять лет вперёд.
Проблема в том, что исполнители принимают решения с кучей информации, но без контекста, и оптимизируют локально — что лучше для них и их команды прямо сейчас. Чаще всего это дает нормальные результаты, но иногда приводит к полной ерунде.
Рассмотрим конкретный пример. Команда разработки несколько недель пилит кастомную аутентификацию для сайта. А в соседнем отделе в это время обсуждают с поставщиком готовое решение, которое закроет все потребности. Командам никто не дал общий контекст и одна из них в любом случае просто потратит время впустую. Руководитель не донёс контекст, хотя это была буквально его работа.
И наоборот, руководитель не знает, что реально происходит в коде, какие есть технические ограничения, где узкие места. Ему нужна информация снизу, чтобы принимать адекватные решения.
В общем, вот и вся работа менеджера — собирать информацию от репортов, синтезировать, пушить наверх. Собирать контекст от своих менеджеров и от пиров, спускать вниз. И не пропускать этап синтеза! Грамотная переработка информации на язык получателя это 90 процентов успеха. А то и все 99. Если что-то из этого не происходит, значит, менеджер просто не работает.
—
Пономарь
Суть работы менеджера — отправлять контекст вниз, а информацию вверх.
У линейных сотрудников максимум информации — они знают проект лучше всех, разработчики понимают технические детали на уровне кода, редакторы — на уровне конкретных кусков отдельных текстов. У топ-менеджеров максимум контекста — они понимают бизнес-цели, стратегию, почему мы вообще делаем то, что делаем, как это связано с продажами и планами на месяц, год, пять лет вперёд.
Проблема в том, что исполнители принимают решения с кучей информации, но без контекста, и оптимизируют локально — что лучше для них и их команды прямо сейчас. Чаще всего это дает нормальные результаты, но иногда приводит к полной ерунде.
Рассмотрим конкретный пример. Команда разработки несколько недель пилит кастомную аутентификацию для сайта. А в соседнем отделе в это время обсуждают с поставщиком готовое решение, которое закроет все потребности. Командам никто не дал общий контекст и одна из них в любом случае просто потратит время впустую. Руководитель не донёс контекст, хотя это была буквально его работа.
И наоборот, руководитель не знает, что реально происходит в коде, какие есть технические ограничения, где узкие места. Ему нужна информация снизу, чтобы принимать адекватные решения.
В общем, вот и вся работа менеджера — собирать информацию от репортов, синтезировать, пушить наверх. Собирать контекст от своих менеджеров и от пиров, спускать вниз. И не пропускать этап синтеза! Грамотная переработка информации на язык получателя это 90 процентов успеха. А то и все 99. Если что-то из этого не происходит, значит, менеджер просто не работает.
—
Пономарь
13❤13💯10👍2
MIT запустил Project Iceberg — систему, которая отслеживает в реальном времени, какие профессии AI уже может автоматизировать сегодня. По сути это система раннего предупреждения, которую Штаты используют для планирования загрузки рабочей силы.
11.7% рабочей силы технически заменяемы прямо сейчас и это оценка текущих возможностей технологий, а не прогноз на условный 2030-й. Из очевидного —в основном IT, но под водой — финансы, здравоохранение, административная работа, профессиональные услуги.
Ключевой фактор роста автоматизации — запуск Anthropic в конце 2024-го Model Context Protocol (MCP, стандарт, который позволяет AI подключаться к любым инструментам). Раньше каждая интеграция требовала кастомного кода. Теперь AI-агенты могут сами заходить в базы данных, работать с таблицами, вызывать API. К марту 2025 уже существовало 7950+ MCP-серверов и рост продолжается. Это открыло для AI возможность выполнять ценные задачи, которые раньше делали люди.
Образование — главный фактор выживания наций в периоды трансформации. Но вот успеют ли образовательные системы и программы переподготовки за темпом изменений.
—
Пономарь
11.7% рабочей силы технически заменяемы прямо сейчас и это оценка текущих возможностей технологий, а не прогноз на условный 2030-й. Из очевидного —в основном IT, но под водой — финансы, здравоохранение, административная работа, профессиональные услуги.
Ключевой фактор роста автоматизации — запуск Anthropic в конце 2024-го Model Context Protocol (MCP, стандарт, который позволяет AI подключаться к любым инструментам). Раньше каждая интеграция требовала кастомного кода. Теперь AI-агенты могут сами заходить в базы данных, работать с таблицами, вызывать API. К марту 2025 уже существовало 7950+ MCP-серверов и рост продолжается. Это открыло для AI возможность выполнять ценные задачи, которые раньше делали люди.
Образование — главный фактор выживания наций в периоды трансформации. Но вот успеют ли образовательные системы и программы переподготовки за темпом изменений.
—
Пономарь
👍2
Самое интересное, о чем я писал в ноябре:
1. Про повышения и принцип Питера
2. Как ChatGPT внезапно забыл хорватский
3. История про выдуманный транскрипт конференции
4. Про точить пилу, задавать вопросы и не выгорать
5. Файлы переживут приложения — о долговечности идей
1. Про повышения и принцип Питера
2. Как ChatGPT внезапно забыл хорватский
3. История про выдуманный транскрипт конференции
4. Про точить пилу, задавать вопросы и не выгорать
5. Файлы переживут приложения — о долговечности идей
❤5
Спотифай вежливо назвал меня человеком без музыкального вкуса, а я и не спорю. Но кроме первого трека я ответственность за свой плейлист не признаю. Это все алгоритмы!
😁11❤8
Вот от кого я точно не ожидал классических медийных спецпроектов, так это от Perplexity.
А они вдруг фиганули спец/коллабу с самим Криштиану Роналду.
Все интерактивные элементы на странице отправляют пользователя читать выдачу Perplexity по соответствующей теме/запросу. Не поленитесь долистать до футбольного поля, там прикольная визуализация точек, с которых Криштианушка забивал свои голы (точки тоже интерактивные).
Ну прикольно, прикольно.
А они вдруг фиганули спец/коллабу с самим Криштиану Роналду.
Все интерактивные элементы на странице отправляют пользователя читать выдачу Perplexity по соответствующей теме/запросу. Не поленитесь долистать до футбольного поля, там прикольная визуализация точек, с которых Криштианушка забивал свои голы (точки тоже интерактивные).
Ну прикольно, прикольно.
🔥7💯2
Netflix покупает Warner Bros. за 83 миллиарда долларов вместе с HBO Max, HBO и всей библиотекой от «Гарри Поттера» до «Друзей». И заодно вселенной DC, что особенно пикантно, если вспомнить совместные успешные проекты с Marvel.
У Netflix теперь будут Бэтмен, «Игра престолов», «Сопрано» и Breaking Bad. А еще студии, которые производят «Теда Лассо» для Apple TV+ (тут еще вопрос, продолжат ли они работать на конкурентов или всё пойдёт в собственную библиотеку).
На глобальном рынке все очевиднее, что в войне стримингов победитель будет только один, а остальным достанется роль активов на продажу. Кажется, нечто похожее происходит и на российском.
У Netflix теперь будут Бэтмен, «Игра престолов», «Сопрано» и Breaking Bad. А еще студии, которые производят «Теда Лассо» для Apple TV+ (тут еще вопрос, продолжат ли они работать на конкурентов или всё пойдёт в собственную библиотеку).
На глобальном рынке все очевиднее, что в войне стримингов победитель будет только один, а остальным достанется роль активов на продажу. Кажется, нечто похожее происходит и на российском.
👍9🫡3💔2
Forwarded from Neural Shit
Киберпанк, который мы заслужили.
На реддите снова интересная история: у сестры автора поста со скриншота диагностированная шизофрения. В какой-то момент она сама сдалась в дурку, потому что ей начало казаться, что с ней пытается общаться холодильник.
Казалось бы, стандартная история, таблетки перестали действовать. Женщину упаковали в психушку, поменяли курс препаратов, продержали под наблюдением.
В итоге оказалось, что холодос был умный, а его "общением" с женщиной оказалась реклама.
Выяснилось, что на экране холодильника крутилась реклама какого-то нового ТВ-шоу. На криповом желтом фоне огромными буквами было написано:
«ПРОСТИ, ЧТО МЫ ТЕБЯ РАССТРОИЛИ, КЭРОЛ».
Женщину зовут Кэрол.
На реддите снова интересная история: у сестры автора поста со скриншота диагностированная шизофрения. В какой-то момент она сама сдалась в дурку, потому что ей начало казаться, что с ней пытается общаться холодильник.
Казалось бы, стандартная история, таблетки перестали действовать. Женщину упаковали в психушку, поменяли курс препаратов, продержали под наблюдением.
В итоге оказалось, что холодос был умный, а его "общением" с женщиной оказалась реклама.
Выяснилось, что на экране холодильника крутилась реклама какого-то нового ТВ-шоу. На криповом желтом фоне огромными буквами было написано:
«ПРОСТИ, ЧТО МЫ ТЕБЯ РАССТРОИЛИ, КЭРОЛ».
Женщину зовут Кэрол.
1😨12🤣6🤷♀2😢1
Кружок Пономаря
Вот от кого я точно не ожидал классических медийных спецпроектов, так это от Perplexity. А они вдруг фиганули спец/коллабу с самим Криштиану Роналду. Все интерактивные элементы на странице отправляют пользователя читать выдачу Perplexity по соответствующей…
Ха, оказывается, Криштиану вложился в Perplexity. Вряд ли он выписал прям большой чек, основные инвестиции скорее всего обеспечены его медийностью. Теперь понятно, чего он регулярно публично нахваливает Perplexity.
Какой дорогой спецпроект получился, однако!
Какой дорогой спецпроект получился, однако!
🤯2😱2
JavaScript исполнилось 30 лет. Тридцать лет назад Netscape и Sun Microsystems объявили о «языке объектного скриптинга для создания интерактивных веб-приложений».
Создатель языка, Бренден Эйх, пришёл в Netscape в апреле 1995-го с обещанием сделать Scheme в браузере. Scheme — академический Lisp-диалект, любимый среди программистов за элегантность. Но буквально через месяц Netscape заключили сделку с Sun Microsystems по Java, и всё изменилось. В конце концов Эйху дали 10 дней — с 6 по 15 мая — чтобы сделать прототип «маленького языка», который будет выглядеть как Java, но не конкурировать с ним. Так появился JavaScript.
Язык менял имя трижды — Mocha, LiveScript, JavaScript (последнее — чистый маркетинг под хайп Java).
За 30 лет много чего случилось. Все 28 компаний, поддержавших JavaScript в 1995-м, мертвы или поглощены. Netscape продался AOL в 1999-м за $4.2 млрд, и был разобран на запчасти. Марк Андриссен, который попал босиком на обложку Time в 1995-м как рок-звезда интернета, сейчас венчурный инвестор-миллиардер и советник Трампа (и благодаря этому попал в South Park). Сам Эйх после 10 лет в роли сооснователя Mozilla ушёл в 2014 после скандала с пожертвованиями против однополых браков и основал браузер Brave.
JavaScript пережил всех. Хотя его часто хейтят в dev-коммьюнити, используют его 62% разработчиков, это самый популярный язык уже 12 лет подряд.
—
Пономарь
Создатель языка, Бренден Эйх, пришёл в Netscape в апреле 1995-го с обещанием сделать Scheme в браузере. Scheme — академический Lisp-диалект, любимый среди программистов за элегантность. Но буквально через месяц Netscape заключили сделку с Sun Microsystems по Java, и всё изменилось. В конце концов Эйху дали 10 дней — с 6 по 15 мая — чтобы сделать прототип «маленького языка», который будет выглядеть как Java, но не конкурировать с ним. Так появился JavaScript.
Язык менял имя трижды — Mocha, LiveScript, JavaScript (последнее — чистый маркетинг под хайп Java).
За 30 лет много чего случилось. Все 28 компаний, поддержавших JavaScript в 1995-м, мертвы или поглощены. Netscape продался AOL в 1999-м за $4.2 млрд, и был разобран на запчасти. Марк Андриссен, который попал босиком на обложку Time в 1995-м как рок-звезда интернета, сейчас венчурный инвестор-миллиардер и советник Трампа (и благодаря этому попал в South Park). Сам Эйх после 10 лет в роли сооснователя Mozilla ушёл в 2014 после скандала с пожертвованиями против однополых браков и основал браузер Brave.
JavaScript пережил всех. Хотя его часто хейтят в dev-коммьюнити, используют его 62% разработчиков, это самый популярный язык уже 12 лет подряд.
—
Пономарь
🔥6❤3💯2
Ричард Саттон — один из отцов-основателей reinforcement learning, профессор Computer Science и исследователь DeepMind. Человек, который 40 с лишним лет наблюдает за развитием AI изнутри.
Его статья The Bitter Lesson («Горький урок») написана в 2019-м, но по-прежнему актуальна. Саттон формулирует горький урок из 70 лет AI-исследований: методы, которые масштабируются с ростом вычислительной мощности, всегда побеждают методы, основанные на человеческом знании предметной области. Горечь в том, что исследователи годами пытаются встроить свою экспертизу в системы, а потом приходит кто-то с большими GPU и перебивает их простым перебором.
Статья короткая — 5 минут чтения. Саттон приводит четыре примера:
1. Шахматы — Deep Blue победил Каспарова грубым перебором, а не "умными" эвристиками)
2. Go — AlphaGo сделала то же самое через 20 лет
3. Распознавание речи — сперва статистические методы победили лингвистические правила, а потом пришёл deep learning и всех переиграл
4. Компьютерное зрение — нейросети выкинули на помойку вообще все предыдущие разработки.
Паттерн одинаковый — сначала исследователи пытаются внедрить человеческое понимание задачи в алгоритм. Это даёт быстрый результат и приносит моральное удовлетворение. Но потом растёт вычислительная мощность, и оказывается, что простой метод (поиск + обучение) на больших мощностях работает лучше. Саттон не говорит, что человеческое знание бесполезно, оно полезно в краткосрочной перспективе (пока мощностей мало), но в долгосрочной становится тормозом.
Это и есть горький урок — исследователи тратят годы на изящные, основанные на понимании решения. А потом их обходит тупой brute force. Это больно для профессионального самолюбия.
Почему это важно сейчас
Статья написана за несколько месяцев до запуска GPT-3 и за три года до ChatGPT. Саттон тогда ещё не видел, насколько правильно всё предсказал. Современные LLM — идеальная иллюстрация bitter lesson: они ничего не "знают" о языке в классическом смысле. Это просто гигантские матрицы весов, натренированные на триллионах токенов. И они работают лучше всех систем, в которые пытались встроить лингвистику.
Можно читать как напоминание тем, кто строит AI-продукты или интегрирует AI в бизнес. Не переоценивайте важность доменной экспертизы в архитектуре модели. Лучше делайте ставку на масштабирование данных и вычислений. Экспертиза пригодится для промптов, пайплайнов, продуктовой обёртки, но не для того, чтобы залезать внутрь модели.
—
Пономарь
Его статья The Bitter Lesson («Горький урок») написана в 2019-м, но по-прежнему актуальна. Саттон формулирует горький урок из 70 лет AI-исследований: методы, которые масштабируются с ростом вычислительной мощности, всегда побеждают методы, основанные на человеческом знании предметной области. Горечь в том, что исследователи годами пытаются встроить свою экспертизу в системы, а потом приходит кто-то с большими GPU и перебивает их простым перебором.
Статья короткая — 5 минут чтения. Саттон приводит четыре примера:
1. Шахматы — Deep Blue победил Каспарова грубым перебором, а не "умными" эвристиками)
2. Go — AlphaGo сделала то же самое через 20 лет
3. Распознавание речи — сперва статистические методы победили лингвистические правила, а потом пришёл deep learning и всех переиграл
4. Компьютерное зрение — нейросети выкинули на помойку вообще все предыдущие разработки.
Паттерн одинаковый — сначала исследователи пытаются внедрить человеческое понимание задачи в алгоритм. Это даёт быстрый результат и приносит моральное удовлетворение. Но потом растёт вычислительная мощность, и оказывается, что простой метод (поиск + обучение) на больших мощностях работает лучше. Саттон не говорит, что человеческое знание бесполезно, оно полезно в краткосрочной перспективе (пока мощностей мало), но в долгосрочной становится тормозом.
Это и есть горький урок — исследователи тратят годы на изящные, основанные на понимании решения. А потом их обходит тупой brute force. Это больно для профессионального самолюбия.
Почему это важно сейчас
Статья написана за несколько месяцев до запуска GPT-3 и за три года до ChatGPT. Саттон тогда ещё не видел, насколько правильно всё предсказал. Современные LLM — идеальная иллюстрация bitter lesson: они ничего не "знают" о языке в классическом смысле. Это просто гигантские матрицы весов, натренированные на триллионах токенов. И они работают лучше всех систем, в которые пытались встроить лингвистику.
Можно читать как напоминание тем, кто строит AI-продукты или интегрирует AI в бизнес. Не переоценивайте важность доменной экспертизы в архитектуре модели. Лучше делайте ставку на масштабирование данных и вычислений. Экспертиза пригодится для промптов, пайплайнов, продуктовой обёртки, но не для того, чтобы залезать внутрь модели.
—
Пономарь
❤7👍1👏1
Андрей Карпаты(й) (погуглите, если не знаете кто это :) напомнил базовый принцип при работе с ИИ: нет смысла общаться с ним как с личностью, по ту сторону экрана точно никого нет. Думайте об ИИ как как о призме, которая покажет нужную вам часть спектра.
Поэтому вместо «Что ты думаешь о Х?» правильнее спрашивать «Какая группа экспертов могла бы обсудить Х? Что бы они сказали?». Модель может симулировать кучу разных точек зрения, но у неё нет своего мнения, которое формировалось бы со временем, как у человека.
Когда вы всё равно пишете « что ты думаешь…?», модель просто берёт усреднённый вектор личности из своих данных файнтюнинга и начинает играть эту роль. Работает, но никакой магии там нет — только статистика.
Ну и да, Карпатый не первый, кто подтверждает — назначение роли ИИ в промпте типа «ты звездный маркетолог» или «ты эксперт-инженер» уже можно пропускать, это пройденный этап. LLM сама себе назначит нужную роль в зависимости от вашего контекста.
—
Пономарь
Поэтому вместо «Что ты думаешь о Х?» правильнее спрашивать «Какая группа экспертов могла бы обсудить Х? Что бы они сказали?». Модель может симулировать кучу разных точек зрения, но у неё нет своего мнения, которое формировалось бы со временем, как у человека.
Когда вы всё равно пишете « что ты думаешь…?», модель просто берёт усреднённый вектор личности из своих данных файнтюнинга и начинает играть эту роль. Работает, но никакой магии там нет — только статистика.
Ну и да, Карпатый не первый, кто подтверждает — назначение роли ИИ в промпте типа «ты звездный маркетолог» или «ты эксперт-инженер» уже можно пропускать, это пройденный этап. LLM сама себе назначит нужную роль в зависимости от вашего контекста.
—
Пономарь
❤4
Вчера выкатили ChatGPT 5.2 и все тг-каналы про ИИ дружно отстрелялись дежурными восторгами, но мы же с вами тут собрались не пресс-релизы перепечатывать, правда? Вот что на текущий момент пишут в отзывах реальные пользователи.
Модель реально сильна на длинных аналитических задачах. Например, дали ей два часа на разбор финотчета. Проверила каждую формулу, каждую статью расходов за ноябрь и выдала структурированный отчет.
А вот с текстами — увы, средне. Тест на 50 писательских задач показал 74% против 80% у Opus 4.5 (но наравне с Sonnet 4.5). Плюс стало меньше штампов типа "It's not X, it's Y" (наконец-то). Хорошо следует инструкциям, но в креативности и находчивости проигрывает той же Opus 4.5.
Итого: если у вас ChatGPT Pro и нужно разобрать большой объем данных — попробуйте 5.2. Для повседневного чата и задач, где важна креативность и автономность, прорыва не ждите.
P.S. Увидел на реддите упоминание, что чатгпт теперь умеет делать видео, пошел проверять. Спросил у него — умеешь видео? Умею, говорит. Ок, попросил создать видео с котом (естественно). Чатгпт задал серию вопросов — какой длины? а в каком стиле? а камера как движется? а формат кадра? И потом сгенерировал статичную картинку. На мое недоумение ответил — не расстраивайся, мол, я могу тебе сгенерить 10 картинок и ты сам их склеишь в видос где-нибудь.
В общем, сравните два диалога:
Модель реально сильна на длинных аналитических задачах. Например, дали ей два часа на разбор финотчета. Проверила каждую формулу, каждую статью расходов за ноябрь и выдала структурированный отчет.
А вот с текстами — увы, средне. Тест на 50 писательских задач показал 74% против 80% у Opus 4.5 (но наравне с Sonnet 4.5). Плюс стало меньше штампов типа "It's not X, it's Y" (наконец-то). Хорошо следует инструкциям, но в креативности и находчивости проигрывает той же Opus 4.5.
Итого: если у вас ChatGPT Pro и нужно разобрать большой объем данных — попробуйте 5.2. Для повседневного чата и задач, где важна креативность и автономность, прорыва не ждите.
P.S. Увидел на реддите упоминание, что чатгпт теперь умеет делать видео, пошел проверять. Спросил у него — умеешь видео? Умею, говорит. Ок, попросил создать видео с котом (естественно). Чатгпт задал серию вопросов — какой длины? а в каком стиле? а камера как движется? а формат кадра? И потом сгенерировал статичную картинку. На мое недоумение ответил — не расстраивайся, мол, я могу тебе сгенерить 10 картинок и ты сам их склеишь в видос где-нибудь.
В общем, сравните два диалога:
😁9❤2