Когда слои идут только вверх: топологические проблемы трансформеров
The Topological Trouble With Transformers
Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
Paper: https://arxiv.org/abs/2604.17121
Review: https://arxiviq.substack.com/p/the-topological-trouble-with-transformers
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили глубокую архитектурную критику стандартных полносвязных (feedforward) трансформеров, подробно объяснив, почему их сугубо однонаправленная топология принципиально ограничивает динамическое отслеживание состояния (state tracking). Чтобы наметить пути развития будущих архитектур, они предложили подробную двумерную таксономию, которая классифицирует рекуррентные и непрерывно мыслящие варианты трансформеров по оси рекуррентности (глубина или шаги) и соотношению входных токенов к шагам рекуррентности.
ПОЧЕМУ это важно: Современные ИИ-системы сильно полагаются на неэффективные с вычислительной точки зрения костыли вроде явной цепочки рассуждений (CoT), чтобы обойти бутылочное горлышко между глубиной модели и её состоянием. Эта работа показывает, почему такие явные стратегии неэффективны, и призывает к стратегическому переходу к неявной динамике рекуррентных активаций. Это даёт чёткую дорожную карту для проектирования фундаментальных моделей, способных поддерживать долгосрочную когнитивную согласованность.
Для практиков: Для сложных задач последовательного отслеживания стандартные трансформеры требуют глубины, растущей линейно с длиной контекста. Вместо того чтобы тратить бюджет токенов на раздутый CoT, исследователям стоит присмотреться к гибридным решениям с рекуррентными связями SSM, DeltaNet (https://arxiv.org/abs/2102.11174) или подходам с неявным планированием во внутреннем пространстве активаций.
# Мясо 🍖
🕸 Бутылочное горлышко глубины
Переход от рекуррентных нейросетей к трансформерам ознаменовал сдвиг от фильтрации на основе состояний к поиску по истории. Вместо того чтобы обновлять сжатое представление на каждом шаге, трансформеры сохраняют всё контекстное окно и используют механизм self-attention для нелокального поиска информации.
Однако такой поиск принципиально отличается от отслеживания состояния (state tracking), которое требует последовательного, итеративного обновления латентных переменных по мере изменения среды. В чисто полносвязном трансформере активация распространяется строго снизу вверх — от поверхностных слоёв к глубоким.
В результате любое последовательное обновление состояния с каждым последующим шагом ввода должно проталкиваться всё глубже по стеку слоёв. Это восходящее движение представлений состояния означает, что способность полносвязной модели поддерживать динамическое состояние строго ограничена её физической глубиной. Как только траектория состояния достигает верхнего слоя, модель исчерпывает возможность выполнять дальнейшие последовательные обновления, что неизбежно приводит к нарушению долгосрочной согласованности.
🧮 Теория и сложность
Чтобы формализовать это ограничение, мы можем взглянуть на среду и внутреннее представление агента через призму динамических систем.
Пусть
На практике некоторые простые последовательности обновления состояния можно объединить в функцию одного шага
Если функция
The Topological Trouble With Transformers
Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
Paper: https://arxiv.org/abs/2604.17121
Review: https://arxiviq.substack.com/p/the-topological-trouble-with-transformers
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили глубокую архитектурную критику стандартных полносвязных (feedforward) трансформеров, подробно объяснив, почему их сугубо однонаправленная топология принципиально ограничивает динамическое отслеживание состояния (state tracking). Чтобы наметить пути развития будущих архитектур, они предложили подробную двумерную таксономию, которая классифицирует рекуррентные и непрерывно мыслящие варианты трансформеров по оси рекуррентности (глубина или шаги) и соотношению входных токенов к шагам рекуррентности.
ПОЧЕМУ это важно: Современные ИИ-системы сильно полагаются на неэффективные с вычислительной точки зрения костыли вроде явной цепочки рассуждений (CoT), чтобы обойти бутылочное горлышко между глубиной модели и её состоянием. Эта работа показывает, почему такие явные стратегии неэффективны, и призывает к стратегическому переходу к неявной динамике рекуррентных активаций. Это даёт чёткую дорожную карту для проектирования фундаментальных моделей, способных поддерживать долгосрочную когнитивную согласованность.
Для практиков: Для сложных задач последовательного отслеживания стандартные трансформеры требуют глубины, растущей линейно с длиной контекста. Вместо того чтобы тратить бюджет токенов на раздутый CoT, исследователям стоит присмотреться к гибридным решениям с рекуррентными связями SSM, DeltaNet (https://arxiv.org/abs/2102.11174) или подходам с неявным планированием во внутреннем пространстве активаций.
# Мясо 🍖
🕸 Бутылочное горлышко глубины
Переход от рекуррентных нейросетей к трансформерам ознаменовал сдвиг от фильтрации на основе состояний к поиску по истории. Вместо того чтобы обновлять сжатое представление на каждом шаге, трансформеры сохраняют всё контекстное окно и используют механизм self-attention для нелокального поиска информации.
Однако такой поиск принципиально отличается от отслеживания состояния (state tracking), которое требует последовательного, итеративного обновления латентных переменных по мере изменения среды. В чисто полносвязном трансформере активация распространяется строго снизу вверх — от поверхностных слоёв к глубоким.
В результате любое последовательное обновление состояния с каждым последующим шагом ввода должно проталкиваться всё глубже по стеку слоёв. Это восходящее движение представлений состояния означает, что способность полносвязной модели поддерживать динамическое состояние строго ограничена её физической глубиной. Как только траектория состояния достигает верхнего слоя, модель исчерпывает возможность выполнять дальнейшие последовательные обновления, что неизбежно приводит к нарушению долгосрочной согласованности.
🧮 Теория и сложность
Чтобы формализовать это ограничение, мы можем взглянуть на среду и внутреннее представление агента через призму динамических систем.
Пусть
s_t ∈ ℝᵈ обозначает многомерное состояние убеждений (belief state) системы на дискретном временном шаге t, служащее компактным резюме знаний агента. Пусть x_t обозначает внешний стимул или входной токен на шаге t. В идеальной динамической архитектуре эволюция состояния описывается функцией перехода f:s_t = f(s_{t-1}, x_t)На практике некоторые простые последовательности обновления состояния можно объединить в функцию одного шага
g, такую что:s_t = f(...f(f(s_0, x_1), x_2)..., x_t) = g(s_0, x_1, ..., x_t)Если функция
g легко выучивается и математически проста, стандартный слой полносвязного трансформера вполне способен её вычислить. Однако когда последовательные зависимости сложны, нелинейны и произвольны, такое упрощение перестаёт работать. Сеть оказывается вынуждена вычислять функцию перехода f шаг за шагом, что требует глубины, которая растёт линейно с длиной последовательности.👍1
Это ограничение линейной глубины дополнительно подтверждается формальными оценками сложности. В частности, в работе Merrill and Sabharwal (2025) (https://arxiv.org/abs/2503.03961) доказана необходимость и достаточность
Что критически важно, эта оценка касается только математической возможности построения таких решений, а не их выучиваемости с помощью градиентного спуска. Это значит, что реальные сети сталкиваются с ещё более жёсткими бутылочными горлышками при обучении отслеживанию состояний с нуля. Следовательно, полносвязные модели с ограниченной глубиной неизбежно пасуют перед длинными последовательными задачами.
🎣 Ловушка восходящей активации
Этот архитектурный недостаток — не просто теоретическая абстракция; он проявляется в виде конкретных сбоев даже у SOTA-моделей. Давайте проследим путь обработки одной входной последовательности с многозначным словом "bank".
Представьте диалог, где пользователь задаёт контекст: "Fred took the day off work and pulled out his fishing pole. He drove to the bank" (Фред взял отгул на работе, достал удочку и поехал к берегу реки/банку). На поверхностных слоях репрезентация токена "bank" крайне неоднозначна и сочетает в себе семантику как берега реки, так и финансового учреждения. По мере того как активация поднимается выше по стеку трансформера, контекстные ключи (такие как "fishing pole" / "удочка") интегрируются, разрешая репрезентацию в пользу значения «берег реки» на более глубоком уровне.
Теперь пользователь отправляет следующий запрос: "Is Fred likely to find an ATM at this bank?" (Есть ли вероятность, что Фред найдет банкомат в этом банке?). При обработке нового токена "ATM" нижние слои трансформера должны обработать этот шаг.
Но вот в чём загвоздка: поскольку в стандартном декодере нет горизонтальных или нисходящих рекуррентных связей, эти поверхностные слои не имеют доступа к глубокому, уже разрешённому состоянию «берег реки» из предыдущего шага. Вместо этого им приходится опираться на сырую историю входов.
Если у ранних слоёв есть сильная поверхностная связь между "bank" и "ATM", модель по умолчанию выберет интерпретацию «финансовый банк» на своих поверхностных слоях. Это приведёт к полному логическому противоречию и неверному предсказанию. Пример наглядно показывает, что полносвязные архитектуры не могут передавать разрешённые представления состояний горизонтально во времени без их постоянного выталкивания вверх, что в конечном счёте разрушает когнитивную согласованность.
🗺 Карта новых архитектур
Чтобы систематизировать архитектурные костыли и решения, разработанные для обхода этой проблемы, авторы предлагают строгую таксономию. Этот фреймворк упорядочивает варианты рекуррентных трансформеров по двум ключевым измерениям: ось рекуррентности (зацикливается ли информация по глубине, шагам или обоим направлениям) и отношение входных токенов на один шаг рекуррентности (обозначаемое как
Модели с рекуррентностью по глубине (depth-recurrent models), такие как Universal Transformer (https://arxiv.org/abs/1807.03819) и другие looped-трансформеры (https://arxiv.org/abs/2301.13196), гоняют векторы представлений по кругу через один и тот же стек слоёв (
В отличие от них, модели с рекуррентностью по шагам (step-recurrence models), включая современные модели в пространстве состояний (State-Space Models, SSM), такие как Mamba (https://arxiv.org/abs/2312.00752), и механизмы линейного внимания вроде DeltaNet (https://arxiv.org/abs/2102.11174), передают представления состояния горизонтально между шагами последовательности на фиксированной глубине слоёв (
log n слоёв для распознавания регулярных языков длиной до n и решения задач связности графов с n вершинами. Что критически важно, эта оценка касается только математической возможности построения таких решений, а не их выучиваемости с помощью градиентного спуска. Это значит, что реальные сети сталкиваются с ещё более жёсткими бутылочными горлышками при обучении отслеживанию состояний с нуля. Следовательно, полносвязные модели с ограниченной глубиной неизбежно пасуют перед длинными последовательными задачами.
🎣 Ловушка восходящей активации
Этот архитектурный недостаток — не просто теоретическая абстракция; он проявляется в виде конкретных сбоев даже у SOTA-моделей. Давайте проследим путь обработки одной входной последовательности с многозначным словом "bank".
Представьте диалог, где пользователь задаёт контекст: "Fred took the day off work and pulled out his fishing pole. He drove to the bank" (Фред взял отгул на работе, достал удочку и поехал к берегу реки/банку). На поверхностных слоях репрезентация токена "bank" крайне неоднозначна и сочетает в себе семантику как берега реки, так и финансового учреждения. По мере того как активация поднимается выше по стеку трансформера, контекстные ключи (такие как "fishing pole" / "удочка") интегрируются, разрешая репрезентацию в пользу значения «берег реки» на более глубоком уровне.
Теперь пользователь отправляет следующий запрос: "Is Fred likely to find an ATM at this bank?" (Есть ли вероятность, что Фред найдет банкомат в этом банке?). При обработке нового токена "ATM" нижние слои трансформера должны обработать этот шаг.
Но вот в чём загвоздка: поскольку в стандартном декодере нет горизонтальных или нисходящих рекуррентных связей, эти поверхностные слои не имеют доступа к глубокому, уже разрешённому состоянию «берег реки» из предыдущего шага. Вместо этого им приходится опираться на сырую историю входов.
Если у ранних слоёв есть сильная поверхностная связь между "bank" и "ATM", модель по умолчанию выберет интерпретацию «финансовый банк» на своих поверхностных слоях. Это приведёт к полному логическому противоречию и неверному предсказанию. Пример наглядно показывает, что полносвязные архитектуры не могут передавать разрешённые представления состояний горизонтально во времени без их постоянного выталкивания вверх, что в конечном счёте разрушает когнитивную согласованность.
🗺 Карта новых архитектур
Чтобы систематизировать архитектурные костыли и решения, разработанные для обхода этой проблемы, авторы предлагают строгую таксономию. Этот фреймворк упорядочивает варианты рекуррентных трансформеров по двум ключевым измерениям: ось рекуррентности (зацикливается ли информация по глубине, шагам или обоим направлениям) и отношение входных токенов на один шаг рекуррентности (обозначаемое как
Ratio).Модели с рекуррентностью по глубине (depth-recurrent models), такие как Universal Transformer (https://arxiv.org/abs/1807.03819) и другие looped-трансформеры (https://arxiv.org/abs/2301.13196), гоняют векторы представлений по кругу через один и тот же стек слоёв (
Ratio > 1). Хотя такая конструкция повышает выразительную способность модели, сама по себе рекуррентность по глубине не позволяет бесконечно отслеживать состояние. Дело в том, что распространение активации остаётся параллелизованным по шагам, сохраняя тот самый предел глубины. В отличие от них, модели с рекуррентностью по шагам (step-recurrence models), включая современные модели в пространстве состояний (State-Space Models, SSM), такие как Mamba (https://arxiv.org/abs/2312.00752), и механизмы линейного внимания вроде DeltaNet (https://arxiv.org/abs/2102.11174), передают представления состояния горизонтально между шагами последовательности на фиксированной глубине слоёв (
Ratio = 1).👍1
Наконец, модели, сочетающие рекуррентность как по глубине, так и по шагам — например, RMT (https://arxiv.org/abs/2207.06881) (
🧠 Костыли явного CoT
Самым популярным костылем для решения дилеммы «глубина-состояние» в коммерческих моделях стала генерация явной цепочки рассуждений (CoT). Модель заставляют выводить свои промежуточные рассуждения вовне в виде последовательности токенов. Благодаря этому глубокие представления состояний записываются в контекстное окно и считываются обратно на поверхностных слоях на последующих шагах. Хотя это успешно обходит топологический лимит, авторы характеризуют CoT как неэффективную «отговорку» (cop-out) для рутинного, автоматического мышления.
Для быстрых ментальных процессов — таких как разрешение многозначности слов или простое отслеживание объектов в игре «двадцать вопросов» — генерация явного потока токенов впустую расходует память и вычисления. Более того, качественные эксперименты с моделями вроде Gemini 3 Thinking показывают, что явная генерация не гарантирует надёжного использования состояния. Даже если нужный объект был правильно выбран в процессе «размышления», последующие шаги генерации всё равно могут потерять согласованность.
Авторы утверждают, что фундаментальные модели должны перейти от явных цепочек рассуждений к неявной динамике рекуррентных активаций, которая обновляет состояние убеждений тихо и непрерывно на заднем плане.
🚀 Куда двигаться дальше
Чтобы внедрить неявное отслеживание состояния в фундаментальные модели без потери преимуществ их масштабирования, в статье выделяются пять перспективных исследовательских направлений.
Во-первых, улучшенные модели в пространстве состояний (SSM) и новые механизмы линейного внимания (например, DeltaNet с гейтингом, https://tg-me.sbs/gonzo_ML/5428) предлагают возможности параллельного обучения, демонстрируя при этом способность к отслеживанию состояний, превосходящую стандартные трансформеры.
Во-вторых, аппроксимация отслеживания состояний в полносвязных сетях может быть достигнута с помощью специализированных лоссов и структурных априорных допущений, которые заставляют стандартные трансформеры формировать структурированные композиционные представления для ретроспективного поиска (lookback).
В-третьих, крупноблочная рекуррентность (coarse recurrence) позволяет снизить вычислительную нагрузку пошагового обновления состояний. Для этого рекуррентность вводится на более крупном масштабе — например, язык моделируется как последовательность дискретных «мыслей» на уровне предложений, как в модели sentence gestalt от Borazjanizadeh and McClelland (https://tg-me.sbs/gonzo_ML/4618).
В-четвёртых, выравнивание репрезентаций (representational alignment) использует естественное соответствие представлений между слоями и шагами, возникающее благодаря residual connections. Это упрощает динамический выбор глубины слоёв и обмен информацией.
В-пятых, парадигмы эффективного рекуррентного обучения — например, многоэтапное обучение, где стандартное полносвязное предобучение затем дополняется рекуррентными связями, обучаемыми с помощью рекуррентного обратного распространения ошибки (recurrent backpropagation). Это позволяет обойти бутылочные горлышки параллелизации, возникающие при обучении рекуррентных сетей с нуля.
🛑 Главные вызовы рекуррентности
Ratio > 1), Feedback Transformer (https://arxiv.org/abs/2002.09402) (Ratio = 1) или архитектуры с непрерывным мышлением вроде COCONUT (https://arxiv.org/abs/2412.06769) (Ratio < 1), — возвращают латентные «мысли» в качестве входа на протяжении нескольких авторегрессионных шагов. Этот квадрант обладает наивысшей выразительной способностью для последовательного отслеживания, пусть и ценой снижения пропускной способности при параллельном обучении.🧠 Костыли явного CoT
Самым популярным костылем для решения дилеммы «глубина-состояние» в коммерческих моделях стала генерация явной цепочки рассуждений (CoT). Модель заставляют выводить свои промежуточные рассуждения вовне в виде последовательности токенов. Благодаря этому глубокие представления состояний записываются в контекстное окно и считываются обратно на поверхностных слоях на последующих шагах. Хотя это успешно обходит топологический лимит, авторы характеризуют CoT как неэффективную «отговорку» (cop-out) для рутинного, автоматического мышления.
Для быстрых ментальных процессов — таких как разрешение многозначности слов или простое отслеживание объектов в игре «двадцать вопросов» — генерация явного потока токенов впустую расходует память и вычисления. Более того, качественные эксперименты с моделями вроде Gemini 3 Thinking показывают, что явная генерация не гарантирует надёжного использования состояния. Даже если нужный объект был правильно выбран в процессе «размышления», последующие шаги генерации всё равно могут потерять согласованность.
Авторы утверждают, что фундаментальные модели должны перейти от явных цепочек рассуждений к неявной динамике рекуррентных активаций, которая обновляет состояние убеждений тихо и непрерывно на заднем плане.
🚀 Куда двигаться дальше
Чтобы внедрить неявное отслеживание состояния в фундаментальные модели без потери преимуществ их масштабирования, в статье выделяются пять перспективных исследовательских направлений.
Во-первых, улучшенные модели в пространстве состояний (SSM) и новые механизмы линейного внимания (например, DeltaNet с гейтингом, https://tg-me.sbs/gonzo_ML/5428) предлагают возможности параллельного обучения, демонстрируя при этом способность к отслеживанию состояний, превосходящую стандартные трансформеры.
Во-вторых, аппроксимация отслеживания состояний в полносвязных сетях может быть достигнута с помощью специализированных лоссов и структурных априорных допущений, которые заставляют стандартные трансформеры формировать структурированные композиционные представления для ретроспективного поиска (lookback).
В-третьих, крупноблочная рекуррентность (coarse recurrence) позволяет снизить вычислительную нагрузку пошагового обновления состояний. Для этого рекуррентность вводится на более крупном масштабе — например, язык моделируется как последовательность дискретных «мыслей» на уровне предложений, как в модели sentence gestalt от Borazjanizadeh and McClelland (https://tg-me.sbs/gonzo_ML/4618).
В-четвёртых, выравнивание репрезентаций (representational alignment) использует естественное соответствие представлений между слоями и шагами, возникающее благодаря residual connections. Это упрощает динамический выбор глубины слоёв и обмен информацией.
В-пятых, парадигмы эффективного рекуррентного обучения — например, многоэтапное обучение, где стандартное полносвязное предобучение затем дополняется рекуррентными связями, обучаемыми с помощью рекуррентного обратного распространения ошибки (recurrent backpropagation). Это позволяет обойти бутылочные горлышки параллелизации, возникающие при обучении рекуррентных сетей с нуля.
🛑 Главные вызовы рекуррентности
👍1
Несмотря на убедительные теоретические преимущества рекуррентности, на пути к её широкому внедрению всё ещё стоят серьёзные препятствия. Самое заметное из них — эффективность обучения. Рекуррентные операции вводят последовательные зависимости, которые исключают параллелизацию по длине последовательности. Это сильно ограничивает пропускную способность предобучения на современных аппаратных ускорителях.
Кроме того, поскольку эта статья носит концептуальный и таксономический характер, авторы не приводят новых эмпирических результатов масштабирования или оценок на бенчмарках. Количественный анализ компромиссов этих рекуррентных альтернатив ещё предстоит провалидировать в будущих инженерных работах.
🏁 Архитектурный вердикт
В конечном счёте, «топологическая проблема» — это структурный изъян, заложенный в самой полносвязной природе стандартных трансформеров. Огромные контекстные окна и явные токены рассуждений позволяют современным моделям обходить это ограничение, но это происходит за счёт вычислительной эффективности.
Чтобы построить фундаментальные модели, способные к надёжной, долгосрочной когнитивной согласованности и сложным многошаговым выводам, ИИ-сообществу нужно заглянуть дальше эффективности параллелизации. Нам необходимо создавать архитектуры, способные поддерживать гибкое, непрерывно развивающееся и неявное представление о реальности.
Кроме того, поскольку эта статья носит концептуальный и таксономический характер, авторы не приводят новых эмпирических результатов масштабирования или оценок на бенчмарках. Количественный анализ компромиссов этих рекуррентных альтернатив ещё предстоит провалидировать в будущих инженерных работах.
🏁 Архитектурный вердикт
В конечном счёте, «топологическая проблема» — это структурный изъян, заложенный в самой полносвязной природе стандартных трансформеров. Огромные контекстные окна и явные токены рассуждений позволяют современным моделям обходить это ограничение, но это происходит за счёт вычислительной эффективности.
Чтобы построить фундаментальные модели, способные к надёжной, долгосрочной когнитивной согласованности и сложным многошаговым выводам, ИИ-сообществу нужно заглянуть дальше эффективности параллелизации. Нам необходимо создавать архитектуры, способные поддерживать гибкое, непрерывно развивающееся и неявное представление о реальности.
arXiv.org
The Topological Trouble With Transformers
Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the...
👍1
Как на самом деле учится мозг: неокортекс аппроксимирует backpropagation через временные производные
This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.
ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.
Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.
# Рыба 🐟
🧠 Биологический тупик распределения ответственности
Между искусственным интеллектом и нейробиологией давно существует глубокое противоречие. С вычислительной точки зрения градиентная оптимизация через обратное распространение ошибки (backpropagation) — единственный механизм, доказавший свою способность масштабироваться до репрезентаций человеческого уровня, что и обеспечило успех современных глубоких сетей. Однако со времён первых критических отзывов в нейробиологии закрепился консенсус: физический мозг не может вычислять эти градиенты. См. также недавнюю работу https://tg-me.sbs/gonzo_ML/5502
Традиционные модели биологического обучения в основном опирались на локальные эвристические правила вроде хеббовской пластичности, которых вычислительно недостаточно для обучения глубоких иерархических сетей.
Альтернативные теории, пытающиеся преодолеть этот разрыв, вроде стандартного предиктивного кодирования (Predictive Coding) (https://www.nature.com/articles/nn0199_79) и target-propagation, решают проблему credit assignment, но создают другое биологическое «бутылочное горлышко». Они требуют строго разделённых, обособленных популяций нейронов для явного представления предсказаний, результатов и сигналов ошибок на основе вычитания. Такая структурная сложность напрямую противоречит высокой связности и избыточности слоёв неокортекса.
Модель временной производной разрешает этот конфликт, перенося представление градиентов ошибок из пространства во время. Вместо того чтобы полагаться на специализированные нейроны ошибок, фреймворк предполагает, что одни и те же корковые нейроны представляют и предсказания, и результаты, но в разные моменты времени.
Вычисляя временную разность между этими двумя состояниями, сеть неявно находит градиенты ошибок. Эта элегантная формулировка использует хорошо изученные двунаправленные возбуждающие пути неокортекса для параллельного удовлетворения ограничений (constraint satisfaction), объединяя вычислительную мощь backpropagation с реальной биологией мозга млекопитающих.
📐 Математика неявного градиента
Чтобы понять механику этого фреймворка, сначала определим ключевые переменные состояния и математические аппроксимации градиента. Сеть рассматривается как двунаправленно связанная динамическая система. В конкретной области коры состояние активации нейрона
Вместо явного вычисления пространственной производной локальное представление ошибки аппроксимируется как разность между двумя разделёнными во времени фазами:
This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.
ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.
Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.
# Рыба 🐟
🧠 Биологический тупик распределения ответственности
Между искусственным интеллектом и нейробиологией давно существует глубокое противоречие. С вычислительной точки зрения градиентная оптимизация через обратное распространение ошибки (backpropagation) — единственный механизм, доказавший свою способность масштабироваться до репрезентаций человеческого уровня, что и обеспечило успех современных глубоких сетей. Однако со времён первых критических отзывов в нейробиологии закрепился консенсус: физический мозг не может вычислять эти градиенты. См. также недавнюю работу https://tg-me.sbs/gonzo_ML/5502
Традиционные модели биологического обучения в основном опирались на локальные эвристические правила вроде хеббовской пластичности, которых вычислительно недостаточно для обучения глубоких иерархических сетей.
Альтернативные теории, пытающиеся преодолеть этот разрыв, вроде стандартного предиктивного кодирования (Predictive Coding) (https://www.nature.com/articles/nn0199_79) и target-propagation, решают проблему credit assignment, но создают другое биологическое «бутылочное горлышко». Они требуют строго разделённых, обособленных популяций нейронов для явного представления предсказаний, результатов и сигналов ошибок на основе вычитания. Такая структурная сложность напрямую противоречит высокой связности и избыточности слоёв неокортекса.
Модель временной производной разрешает этот конфликт, перенося представление градиентов ошибок из пространства во время. Вместо того чтобы полагаться на специализированные нейроны ошибок, фреймворк предполагает, что одни и те же корковые нейроны представляют и предсказания, и результаты, но в разные моменты времени.
Вычисляя временную разность между этими двумя состояниями, сеть неявно находит градиенты ошибок. Эта элегантная формулировка использует хорошо изученные двунаправленные возбуждающие пути неокортекса для параллельного удовлетворения ограничений (constraint satisfaction), объединяя вычислительную мощь backpropagation с реальной биологией мозга млекопитающих.
📐 Математика неявного градиента
Чтобы понять механику этого фреймворка, сначала определим ключевые переменные состояния и математические аппроксимации градиента. Сеть рассматривается как двунаправленно связанная динамическая система. В конкретной области коры состояние активации нейрона
j непрерывно эволюционирует во времени.Вместо явного вычисления пространственной производной локальное представление ошибки аппроксимируется как разность между двумя разделёнными во времени фазами:
Error ≈ a_j,plus - a_j,minusЗдесь
a_j,minus представляет собой положительную вещественную активацию принимающего нейрона j во время фазы предсказания (минус-фазы), а a_j,plus — его активацию во время последующей фазы результата (плюс-фазы). Следовательно, локальное обновление синаптического веса Δw_ij между передающим нейроном i и принимающим нейроном j записывается как:Δw_ij ∝ (a_j,plus - a_j,minus) * a_i,minusВ этом уравнении
a_i,minus — это активация передающего нейрона во время начальной фазы предсказания. Поскольку все переменные остаются положительными и совместимы со стандартным представлением частоты импульсации (firing rate), эта формула избавляет от необходимости вводить отрицательные частоты импульсации или знаковые линии передачи ошибок.Двунаправленные возбуждающие связи, которыми изобилует неокортекс, позволяют обратной связи сверху вниз из более высоких слоёв коры влиять на активацию скрытых нейронов нижнего уровня. Это взаимодействие гарантирует, что временная разность, вычисляемая локально в каждом синапсе, математически аппроксимирует глобальный градиент обратного распространения.
🔄 Анатомия тета-ритма: шаг за шагом
Генерация и синхронизация этих отдельных состояний предсказания и результата управляются узкоспециализированной анатомической структурой — кортикоталамическими петлями. Один цикл обучения укладывается во временное окно в 200 мс, что соответствует физиологическому тета-ритму с частотой 5 Гц.
Чтобы понять поток информации, рассмотрим сквозной пример обработки зрительного стимула через первичную и вторичную зрительные зоны.
В первые 100 мс (минус-фаза, или фаза предсказания) волна сенсорной информации снизу вверх распространяется от сетчатки через латеральное коленчатое тело в слои коры. Одновременно с этим многочисленные, но относительно слабые кортикофугальные проекции из слоя 6 (VI) вышележащих отделов коры направляются вниз к подушке (pulvinar) таламуса для формирования предсказания ожидаемого состояния.
Поскольку связи внутри коры преимущественно двунаправленные, скрытые и предсказывающие слои взаимно возбуждают друг друга, приходя к согласованному состоянию параллельного удовлетворения ограничений. В конце минус-фазы состояние сети отражает чистое предсказание «сверху вниз».
На переходе ко вторым 100 мс (плюс-фаза, или фаза результата) в сеть поступает реальный сенсорный сигнал. Это изменение состояния обеспечивается небольшим количеством аномально сильных, сфокусированных «драйверных» входов, идущих от нейронов слоя 5b с внутренним пачечным типом разряда (layer 5b intrinsic bursting, 5IB) иерархически более низких областей, которые генерируют пачки импульсов с тета-частотой.
Эти мощные драйверные входы подавляют слабые предсказывающие входы слоя 6 на уровне подушки таламуса, устанавливая высокоточное представление реального результата. Это обновлённое состояние затем передаётся обратно в неокортекс через релейные таламокортикальные клетки. Такая двухфазная последовательность заставляет всю иерархию неокортекса переходить от состояния предсказания к состоянию, определяемому результатом, создавая временную разность, необходимую для локального вычисления градиента.
🧪 Молекулярный калькулятор синапсов
Спускаясь на уровень реализации, модель объясняет, как отдельные синапсы физически вычисляют разницу между этими быстро сменяющимися временными фазами. Физический расчёт происходит через конкурентный внутриклеточный сигнальный путь с участием двух киназ.
Локально в постсинаптическом уплотнении временная производная вычисляется как разность между быстрым и медленным интегралом кальций-активируемого кальмодулина (CaM). Динамика этих интеграторов с утечкой (leaky integration) описывается дифференциальными уравнениями первого порядка, управляемыми концентрацией внутриклеточного кальция
Ca(t), который выступает биохимическим прокси нейронной активности:dI_fast(t) / dt = (Ca(t) - I_fast(t)) / τ_fastdI_slow(t) / dt = (Ca(t) - I_slow(t)) / τ_slow1🔥1
В этих уравнениях
Соответствующие постоянные времени интеграции удовлетворяют неравенству
Эта математическая модель напрямую отражает конкурентную динамику двух ферментов: кальций/кальмодулин-зависимой протеинкиназы II (CaMKII) и ассоциированной со смертью протеинкиназы 1 (DAPK1). Если CaMKII активируется и интегрирует сигнал быстрее в ответ на общий приток кальция-кальмодулина, она доминирует при положительных временных производных, запуская долговременную потенциацию (LTP).
Напротив, если DAPK1 интегрирует сигнал медленнее, она доминирует при отрицательной временной производной, приводя к долговременной депрессии (LTD). Этот конкурентный молекулярный переключатель позволяет отдельным физическим синапсам вычислять производные ошибки локально, не требуя глобальной координации.
⚡️ Почему Хебб ошибался
Жизнеспособность этой киназной модели временной производной подтверждается недавними экспериментами по синаптической пластичности in vitro. Пирамидные нейроны стимулировали высококонтролируемыми паттернами активности в пределах 200-миллисекундного окна для имитации фаз предсказания и результата.
Когда частота стимуляции повышалась с 25 Гц в фазе предсказания до 50 Гц в фазе результата, возникала сильная положительная временная производная, что приводило к выраженной LTP — нормированная амплитуда возбуждающего постсинаптического потенциала (ВПСП, EPSP) увеличивалась примерно до 1.5–1.8.
И наоборот, когда паттерн менялся на противоположный — с 50 Гц до 25 Гц, создавая отрицательную временную производную, — наблюдалась LTD, при этом амплитуда ВПСП падала примерно до 0.8. Что критически важно, плоские профили стимуляции на постоянной частоте 25 Гц или 50 Гц вообще не приводили к изменению эффективности синапсов.
Эти результаты напрямую бросают вызов классическим догмам хеббовского обучения (например, теории BCM). В рамках стандартных хеббовских допущений высокочастотная совместная активность (такая как режим 50–50 Гц) должна обеспечивать максимальный приток кальция и, следовательно, максимально возможную LTP.
Тот факт, что плоский профиль 50–50 Гц даёт нулевую чистую пластичность, тогда как профиль 25–50 Гц с меньшей суммарной активностью вызывает мощную LTP, доказывает: синапс чувствителен именно к временной производной активности, а не к её абсолютной величине.
📜 От Больцмана до наших дней
Фреймворк временной производной возник не на пустом месте; это кульминация развития целого семейства алгоритмов фазового обучения. Сама концепция использования различных фаз нейронной активности для вычисления градиентов ошибок зародилась ещё в машине Больцмана (Boltzmann Machine) (Ackley et al., 1985), где применялось контрастивное правило обучения на основе «зажатых» (clamped) и «свободных» (unclamped) состояний.
Позже эта математическая основа приблизилась к классическому backpropagation благодаря модели рециркуляции (Recirculation) (Hinton & McClelland, 1988) и её обобщённому преемнику — алгоритму GeneRec (O'Reilly, 1996), который явно выводил аппроксимирующие backpropagation градиенты из локальных временных разностей.
Недавно эта эволюционная ветвь пополнилась методом равновесного распространения (Equilibrium Propagation) (Scellier & Bengio, 2017), который имеет схожую математическую структуру, но опирается на непрерывную минимизацию энергии. Предложенная здесь модель временной производной отличается от предшественников тем, что напрямую связывает абстрактные математические фазы с конкретными биологическими субстратами, такими как 200-миллисекундный таламокортикальный тета-ритм и молекулярные киназные переключатели.
I_fast(t) — быстро меняющийся сигнал, отслеживающий кратковременный приток кальция в фазе непосредственного результата (плюс-фазе), а I_slow(t) — медленный интегратор, который сглаживает высокочастотные колебания, сохраняя биохимический след более ранней фазы предсказания (минус-фазы).Соответствующие постоянные времени интеграции удовлетворяют неравенству
τ_fast ≪ τ_slow. Локальное изменение синаптического веса Δw в конце тета-цикла определяется разностью этих двух интегральных сигналов:Δw ∝ I_fast - I_slowЭта математическая модель напрямую отражает конкурентную динамику двух ферментов: кальций/кальмодулин-зависимой протеинкиназы II (CaMKII) и ассоциированной со смертью протеинкиназы 1 (DAPK1). Если CaMKII активируется и интегрирует сигнал быстрее в ответ на общий приток кальция-кальмодулина, она доминирует при положительных временных производных, запуская долговременную потенциацию (LTP).
Напротив, если DAPK1 интегрирует сигнал медленнее, она доминирует при отрицательной временной производной, приводя к долговременной депрессии (LTD). Этот конкурентный молекулярный переключатель позволяет отдельным физическим синапсам вычислять производные ошибки локально, не требуя глобальной координации.
⚡️ Почему Хебб ошибался
Жизнеспособность этой киназной модели временной производной подтверждается недавними экспериментами по синаптической пластичности in vitro. Пирамидные нейроны стимулировали высококонтролируемыми паттернами активности в пределах 200-миллисекундного окна для имитации фаз предсказания и результата.
Когда частота стимуляции повышалась с 25 Гц в фазе предсказания до 50 Гц в фазе результата, возникала сильная положительная временная производная, что приводило к выраженной LTP — нормированная амплитуда возбуждающего постсинаптического потенциала (ВПСП, EPSP) увеличивалась примерно до 1.5–1.8.
И наоборот, когда паттерн менялся на противоположный — с 50 Гц до 25 Гц, создавая отрицательную временную производную, — наблюдалась LTD, при этом амплитуда ВПСП падала примерно до 0.8. Что критически важно, плоские профили стимуляции на постоянной частоте 25 Гц или 50 Гц вообще не приводили к изменению эффективности синапсов.
Эти результаты напрямую бросают вызов классическим догмам хеббовского обучения (например, теории BCM). В рамках стандартных хеббовских допущений высокочастотная совместная активность (такая как режим 50–50 Гц) должна обеспечивать максимальный приток кальция и, следовательно, максимально возможную LTP.
Тот факт, что плоский профиль 50–50 Гц даёт нулевую чистую пластичность, тогда как профиль 25–50 Гц с меньшей суммарной активностью вызывает мощную LTP, доказывает: синапс чувствителен именно к временной производной активности, а не к её абсолютной величине.
📜 От Больцмана до наших дней
Фреймворк временной производной возник не на пустом месте; это кульминация развития целого семейства алгоритмов фазового обучения. Сама концепция использования различных фаз нейронной активности для вычисления градиентов ошибок зародилась ещё в машине Больцмана (Boltzmann Machine) (Ackley et al., 1985), где применялось контрастивное правило обучения на основе «зажатых» (clamped) и «свободных» (unclamped) состояний.
Позже эта математическая основа приблизилась к классическому backpropagation благодаря модели рециркуляции (Recirculation) (Hinton & McClelland, 1988) и её обобщённому преемнику — алгоритму GeneRec (O'Reilly, 1996), который явно выводил аппроксимирующие backpropagation градиенты из локальных временных разностей.
Недавно эта эволюционная ветвь пополнилась методом равновесного распространения (Equilibrium Propagation) (Scellier & Bengio, 2017), который имеет схожую математическую структуру, но опирается на непрерывную минимизацию энергии. Предложенная здесь модель временной производной отличается от предшественников тем, что напрямую связывает абстрактные математические фазы с конкретными биологическими субстратами, такими как 200-миллисекундный таламокортикальный тета-ритм и молекулярные киназные переключатели.
🔥1
Она также работает параллельно со специализированными вспомогательными системами, такими как поведенческая синаптическая пластичность (Behavioral Timescale Synaptic Plasticity) (Magee, 2026), которая выступает в роли системы быстрого картирования для мгновенного декодирования медленно накапливающихся статистических представлений, формируемых глубоким кортикоталамическим распределением ответственности (credit assignment).
⚠️ Трудности масштабирования теории
Несмотря на теоретическое изящество, остаётся ряд серьёзных вопросов, без ответов на которые модель временной производной нельзя признать исчерпывающим описанием обучения в неокортексе. На структурном уровне, хотя модель подробно описывает роль проекций подушки таламуса, точные направляющие сигналы (driving target signals), координирующие пластичность выходных нейронов 5-го слоя неокортекса, остаются частично неясными. Текущая гипотеза опирается на широкие матричные таламические проекции из вентрального переднего ядра, но для подтверждения этого пути необходимы детальные экспериментальные исследования.
Кроме того, эмпирическая база модели основана на очень недавних и весьма специфических синаптических препаратах in vitro. Эти результаты нужно воспроизвести на других областях коры и на препаратах in vivo, чтобы доказать, что 200-миллисекундное временное разделение на тета-частоте действительно является универсальным вычислительным принципом неокортекса.
Наконец, с инженерной точки зрения, хотя модель уже реализована в спайковых нейронных сетях в рамках фреймворка Axon с ускорением на WebGPU, ещё предстоит доказать, что такое локальное фазовое обучение способно масштабироваться до уровня стандартного обратного распространения ошибки на современных массивных бенчмарках глубокого обучения.
🚀 Будущее нейроморфных чипов
Стратегическая ценность работы заключается в строгом следовании трёхкомпонентному подходу Марра (Marr's tri-level vision) — она успешно связывает абстрактные вычислительные требования с конкретным биологическим аппаратом. Доказывая, что неокортекс способен аппроксимировать математический градиент обратного распространения ошибки без нарушения биологических ограничений, статья стирает исторический барьер между искусственными и биологическими нейронными системами.
Для сообществ ИИ и разработчиков нейроморфного железа этот фреймворк имеет огромное значение. Он предлагает математически обоснованное локальное правило обучения, исключающее требовательный к памяти глобальный обратный проход (backward pass), характерный для традиционного глубокого обучения.
Реализация этого конкурентного правила временной разности на базе киназ в аналоговом кремнии или спайковом железе позволит создавать энергоэффективные нейроморфные устройства непрерывного обучения прямо на чипе. В конечном счёте, эта работа предлагает сильную рабочую гипотезу о механизмах обучения в неокортексе, предполагая, что самый мощный алгоритм искусственного интеллекта — это и есть тот самый механизм, который управляет человеческим мышлением.
⚠️ Трудности масштабирования теории
Несмотря на теоретическое изящество, остаётся ряд серьёзных вопросов, без ответов на которые модель временной производной нельзя признать исчерпывающим описанием обучения в неокортексе. На структурном уровне, хотя модель подробно описывает роль проекций подушки таламуса, точные направляющие сигналы (driving target signals), координирующие пластичность выходных нейронов 5-го слоя неокортекса, остаются частично неясными. Текущая гипотеза опирается на широкие матричные таламические проекции из вентрального переднего ядра, но для подтверждения этого пути необходимы детальные экспериментальные исследования.
Кроме того, эмпирическая база модели основана на очень недавних и весьма специфических синаптических препаратах in vitro. Эти результаты нужно воспроизвести на других областях коры и на препаратах in vivo, чтобы доказать, что 200-миллисекундное временное разделение на тета-частоте действительно является универсальным вычислительным принципом неокортекса.
Наконец, с инженерной точки зрения, хотя модель уже реализована в спайковых нейронных сетях в рамках фреймворка Axon с ускорением на WebGPU, ещё предстоит доказать, что такое локальное фазовое обучение способно масштабироваться до уровня стандартного обратного распространения ошибки на современных массивных бенчмарках глубокого обучения.
🚀 Будущее нейроморфных чипов
Стратегическая ценность работы заключается в строгом следовании трёхкомпонентному подходу Марра (Marr's tri-level vision) — она успешно связывает абстрактные вычислительные требования с конкретным биологическим аппаратом. Доказывая, что неокортекс способен аппроксимировать математический градиент обратного распространения ошибки без нарушения биологических ограничений, статья стирает исторический барьер между искусственными и биологическими нейронными системами.
Для сообществ ИИ и разработчиков нейроморфного железа этот фреймворк имеет огромное значение. Он предлагает математически обоснованное локальное правило обучения, исключающее требовательный к памяти глобальный обратный проход (backward pass), характерный для традиционного глубокого обучения.
Реализация этого конкурентного правила временной разности на базе киназ в аналоговом кремнии или спайковом железе позволит создавать энергоэффективные нейроморфные устройства непрерывного обучения прямо на чипе. В конечном счёте, эта работа предлагает сильную рабочую гипотезу о механизмах обучения в неокортексе, предполагая, что самый мощный алгоритм искусственного интеллекта — это и есть тот самый механизм, который управляет человеческим мышлением.
Computational Cognitive Neuroscience
OReilly (2026) Cortical Learning
Understanding how the neocortex learns is perhaps the single most important step in understanding human intelligence, because our cognitive functions emerge over years of experience-driven learning within this brain structure, which is unique to mammals and…
🔥2