gonzo_ML_podcasts
2.95K subscribers
2.97K photos
907 links
gonzo_ML sister channel with automatically generated reviews and audio podcasts.

Будь осторожен, прогон возможен!
Download Telegram
Наконец, модели, сочетающие рекуррентность как по глубине, так и по шагам — например, RMT (https://arxiv.org/abs/2207.06881) (Ratio > 1), Feedback Transformer (https://arxiv.org/abs/2002.09402) (Ratio = 1) или архитектуры с непрерывным мышлением вроде COCONUT (https://arxiv.org/abs/2412.06769) (Ratio < 1), — возвращают латентные «мысли» в качестве входа на протяжении нескольких авторегрессионных шагов. Этот квадрант обладает наивысшей выразительной способностью для последовательного отслеживания, пусть и ценой снижения пропускной способности при параллельном обучении.

🧠 Костыли явного CoT

Самым популярным костылем для решения дилеммы «глубина-состояние» в коммерческих моделях стала генерация явной цепочки рассуждений (CoT). Модель заставляют выводить свои промежуточные рассуждения вовне в виде последовательности токенов. Благодаря этому глубокие представления состояний записываются в контекстное окно и считываются обратно на поверхностных слоях на последующих шагах. Хотя это успешно обходит топологический лимит, авторы характеризуют CoT как неэффективную «отговорку» (cop-out) для рутинного, автоматического мышления.

Для быстрых ментальных процессов — таких как разрешение многозначности слов или простое отслеживание объектов в игре «двадцать вопросов» — генерация явного потока токенов впустую расходует память и вычисления. Более того, качественные эксперименты с моделями вроде Gemini 3 Thinking показывают, что явная генерация не гарантирует надёжного использования состояния. Даже если нужный объект был правильно выбран в процессе «размышления», последующие шаги генерации всё равно могут потерять согласованность.

Авторы утверждают, что фундаментальные модели должны перейти от явных цепочек рассуждений к неявной динамике рекуррентных активаций, которая обновляет состояние убеждений тихо и непрерывно на заднем плане.

🚀 Куда двигаться дальше

Чтобы внедрить неявное отслеживание состояния в фундаментальные модели без потери преимуществ их масштабирования, в статье выделяются пять перспективных исследовательских направлений.

Во-первых, улучшенные модели в пространстве состояний (SSM) и новые механизмы линейного внимания (например, DeltaNet с гейтингом, https://tg-me.sbs/gonzo_ML/5428) предлагают возможности параллельного обучения, демонстрируя при этом способность к отслеживанию состояний, превосходящую стандартные трансформеры.

Во-вторых, аппроксимация отслеживания состояний в полносвязных сетях может быть достигнута с помощью специализированных лоссов и структурных априорных допущений, которые заставляют стандартные трансформеры формировать структурированные композиционные представления для ретроспективного поиска (lookback).

В-третьих, крупноблочная рекуррентность (coarse recurrence) позволяет снизить вычислительную нагрузку пошагового обновления состояний. Для этого рекуррентность вводится на более крупном масштабе — например, язык моделируется как последовательность дискретных «мыслей» на уровне предложений, как в модели sentence gestalt от Borazjanizadeh and McClelland (https://tg-me.sbs/gonzo_ML/4618).

В-четвёртых, выравнивание репрезентаций (representational alignment) использует естественное соответствие представлений между слоями и шагами, возникающее благодаря residual connections. Это упрощает динамический выбор глубины слоёв и обмен информацией.

В-пятых, парадигмы эффективного рекуррентного обучения — например, многоэтапное обучение, где стандартное полносвязное предобучение затем дополняется рекуррентными связями, обучаемыми с помощью рекуррентного обратного распространения ошибки (recurrent backpropagation). Это позволяет обойти бутылочные горлышки параллелизации, возникающие при обучении рекуррентных сетей с нуля.

🛑 Главные вызовы рекуррентности
👍1
Несмотря на убедительные теоретические преимущества рекуррентности, на пути к её широкому внедрению всё ещё стоят серьёзные препятствия. Самое заметное из них — эффективность обучения. Рекуррентные операции вводят последовательные зависимости, которые исключают параллелизацию по длине последовательности. Это сильно ограничивает пропускную способность предобучения на современных аппаратных ускорителях.

Кроме того, поскольку эта статья носит концептуальный и таксономический характер, авторы не приводят новых эмпирических результатов масштабирования или оценок на бенчмарках. Количественный анализ компромиссов этих рекуррентных альтернатив ещё предстоит провалидировать в будущих инженерных работах.

🏁 Архитектурный вердикт

В конечном счёте, «топологическая проблема» — это структурный изъян, заложенный в самой полносвязной природе стандартных трансформеров. Огромные контекстные окна и явные токены рассуждений позволяют современным моделям обходить это ограничение, но это происходит за счёт вычислительной эффективности.

Чтобы построить фундаментальные модели, способные к надёжной, долгосрочной когнитивной согласованности и сложным многошаговым выводам, ИИ-сообществу нужно заглянуть дальше эффективности параллелизации. Нам необходимо создавать архитектуры, способные поддерживать гибкое, непрерывно развивающееся и неявное представление о реальности.
👍1
🔥1
Как на самом деле учится мозг: неокортекс аппроксимирует backpropagation через временные производные

This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.

ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.

Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.

# Рыба 🐟

🧠 Биологический тупик распределения ответственности

Между искусственным интеллектом и нейробиологией давно существует глубокое противоречие. С вычислительной точки зрения градиентная оптимизация через обратное распространение ошибки (backpropagation) — единственный механизм, доказавший свою способность масштабироваться до репрезентаций человеческого уровня, что и обеспечило успех современных глубоких сетей. Однако со времён первых критических отзывов в нейробиологии закрепился консенсус: физический мозг не может вычислять эти градиенты. См. также недавнюю работу https://tg-me.sbs/gonzo_ML/5502

Традиционные модели биологического обучения в основном опирались на локальные эвристические правила вроде хеббовской пластичности, которых вычислительно недостаточно для обучения глубоких иерархических сетей.

Альтернативные теории, пытающиеся преодолеть этот разрыв, вроде стандартного предиктивного кодирования (Predictive Coding) (https://www.nature.com/articles/nn0199_79) и target-propagation, решают проблему credit assignment, но создают другое биологическое «бутылочное горлышко». Они требуют строго разделённых, обособленных популяций нейронов для явного представления предсказаний, результатов и сигналов ошибок на основе вычитания. Такая структурная сложность напрямую противоречит высокой связности и избыточности слоёв неокортекса.

Модель временной производной разрешает этот конфликт, перенося представление градиентов ошибок из пространства во время. Вместо того чтобы полагаться на специализированные нейроны ошибок, фреймворк предполагает, что одни и те же корковые нейроны представляют и предсказания, и результаты, но в разные моменты времени.

Вычисляя временную разность между этими двумя состояниями, сеть неявно находит градиенты ошибок. Эта элегантная формулировка использует хорошо изученные двунаправленные возбуждающие пути неокортекса для параллельного удовлетворения ограничений (constraint satisfaction), объединяя вычислительную мощь backpropagation с реальной биологией мозга млекопитающих.

📐 Математика неявного градиента

Чтобы понять механику этого фреймворка, сначала определим ключевые переменные состояния и математические аппроксимации градиента. Сеть рассматривается как двунаправленно связанная динамическая система. В конкретной области коры состояние активации нейрона j непрерывно эволюционирует во времени.

Вместо явного вычисления пространственной производной локальное представление ошибки аппроксимируется как разность между двумя разделёнными во времени фазами:
Error ≈ a_j,plus - a_j,minus

Здесь a_j,minus представляет собой положительную вещественную активацию принимающего нейрона j во время фазы предсказания (минус-фазы), а a_j,plus — его активацию во время последующей фазы результата (плюс-фазы). Следовательно, локальное обновление синаптического веса Δw_ij между передающим нейроном i и принимающим нейроном j записывается как:

Δw_ij ∝ (a_j,plus - a_j,minus) * a_i,minus

В этом уравнении a_i,minus — это активация передающего нейрона во время начальной фазы предсказания. Поскольку все переменные остаются положительными и совместимы со стандартным представлением частоты импульсации (firing rate), эта формула избавляет от необходимости вводить отрицательные частоты импульсации или знаковые линии передачи ошибок.

Двунаправленные возбуждающие связи, которыми изобилует неокортекс, позволяют обратной связи сверху вниз из более высоких слоёв коры влиять на активацию скрытых нейронов нижнего уровня. Это взаимодействие гарантирует, что временная разность, вычисляемая локально в каждом синапсе, математически аппроксимирует глобальный градиент обратного распространения.

🔄 Анатомия тета-ритма: шаг за шагом

Генерация и синхронизация этих отдельных состояний предсказания и результата управляются узкоспециализированной анатомической структурой — кортикоталамическими петлями. Один цикл обучения укладывается во временное окно в 200 мс, что соответствует физиологическому тета-ритму с частотой 5 Гц.

Чтобы понять поток информации, рассмотрим сквозной пример обработки зрительного стимула через первичную и вторичную зрительные зоны.

В первые 100 мс (минус-фаза, или фаза предсказания) волна сенсорной информации снизу вверх распространяется от сетчатки через латеральное коленчатое тело в слои коры. Одновременно с этим многочисленные, но относительно слабые кортикофугальные проекции из слоя 6 (VI) вышележащих отделов коры направляются вниз к подушке (pulvinar) таламуса для формирования предсказания ожидаемого состояния.

Поскольку связи внутри коры преимущественно двунаправленные, скрытые и предсказывающие слои взаимно возбуждают друг друга, приходя к согласованному состоянию параллельного удовлетворения ограничений. В конце минус-фазы состояние сети отражает чистое предсказание «сверху вниз».

На переходе ко вторым 100 мс (плюс-фаза, или фаза результата) в сеть поступает реальный сенсорный сигнал. Это изменение состояния обеспечивается небольшим количеством аномально сильных, сфокусированных «драйверных» входов, идущих от нейронов слоя 5b с внутренним пачечным типом разряда (layer 5b intrinsic bursting, 5IB) иерархически более низких областей, которые генерируют пачки импульсов с тета-частотой.

Эти мощные драйверные входы подавляют слабые предсказывающие входы слоя 6 на уровне подушки таламуса, устанавливая высокоточное представление реального результата. Это обновлённое состояние затем передаётся обратно в неокортекс через релейные таламокортикальные клетки. Такая двухфазная последовательность заставляет всю иерархию неокортекса переходить от состояния предсказания к состоянию, определяемому результатом, создавая временную разность, необходимую для локального вычисления градиента.

🧪 Молекулярный калькулятор синапсов

Спускаясь на уровень реализации, модель объясняет, как отдельные синапсы физически вычисляют разницу между этими быстро сменяющимися временными фазами. Физический расчёт происходит через конкурентный внутриклеточный сигнальный путь с участием двух киназ.

Локально в постсинаптическом уплотнении временная производная вычисляется как разность между быстрым и медленным интегралом кальций-активируемого кальмодулина (CaM). Динамика этих интеграторов с утечкой (leaky integration) описывается дифференциальными уравнениями первого порядка, управляемыми концентрацией внутриклеточного кальция Ca(t), который выступает биохимическим прокси нейронной активности:

dI_fast(t) / dt = (Ca(t) - I_fast(t)) / τ_fast

dI_slow(t) / dt = (Ca(t) - I_slow(t)) / τ_slow
1🔥1
В этих уравнениях I_fast(t) — быстро меняющийся сигнал, отслеживающий кратковременный приток кальция в фазе непосредственного результата (плюс-фазе), а I_slow(t) — медленный интегратор, который сглаживает высокочастотные колебания, сохраняя биохимический след более ранней фазы предсказания (минус-фазы).

Соответствующие постоянные времени интеграции удовлетворяют неравенству τ_fast ≪ τ_slow. Локальное изменение синаптического веса Δw в конце тета-цикла определяется разностью этих двух интегральных сигналов:

Δw ∝ I_fast - I_slow

Эта математическая модель напрямую отражает конкурентную динамику двух ферментов: кальций/кальмодулин-зависимой протеинкиназы II (CaMKII) и ассоциированной со смертью протеинкиназы 1 (DAPK1). Если CaMKII активируется и интегрирует сигнал быстрее в ответ на общий приток кальция-кальмодулина, она доминирует при положительных временных производных, запуская долговременную потенциацию (LTP).

Напротив, если DAPK1 интегрирует сигнал медленнее, она доминирует при отрицательной временной производной, приводя к долговременной депрессии (LTD). Этот конкурентный молекулярный переключатель позволяет отдельным физическим синапсам вычислять производные ошибки локально, не требуя глобальной координации.

⚡️ Почему Хебб ошибался

Жизнеспособность этой киназной модели временной производной подтверждается недавними экспериментами по синаптической пластичности in vitro. Пирамидные нейроны стимулировали высококонтролируемыми паттернами активности в пределах 200-миллисекундного окна для имитации фаз предсказания и результата.

Когда частота стимуляции повышалась с 25 Гц в фазе предсказания до 50 Гц в фазе результата, возникала сильная положительная временная производная, что приводило к выраженной LTP — нормированная амплитуда возбуждающего постсинаптического потенциала (ВПСП, EPSP) увеличивалась примерно до 1.5–1.8.

И наоборот, когда паттерн менялся на противоположный — с 50 Гц до 25 Гц, создавая отрицательную временную производную, — наблюдалась LTD, при этом амплитуда ВПСП падала примерно до 0.8. Что критически важно, плоские профили стимуляции на постоянной частоте 25 Гц или 50 Гц вообще не приводили к изменению эффективности синапсов.

Эти результаты напрямую бросают вызов классическим догмам хеббовского обучения (например, теории BCM). В рамках стандартных хеббовских допущений высокочастотная совместная активность (такая как режим 50–50 Гц) должна обеспечивать максимальный приток кальция и, следовательно, максимально возможную LTP.

Тот факт, что плоский профиль 50–50 Гц даёт нулевую чистую пластичность, тогда как профиль 25–50 Гц с меньшей суммарной активностью вызывает мощную LTP, доказывает: синапс чувствителен именно к временной производной активности, а не к её абсолютной величине.

📜 От Больцмана до наших дней

Фреймворк временной производной возник не на пустом месте; это кульминация развития целого семейства алгоритмов фазового обучения. Сама концепция использования различных фаз нейронной активности для вычисления градиентов ошибок зародилась ещё в машине Больцмана (Boltzmann Machine) (Ackley et al., 1985), где применялось контрастивное правило обучения на основе «зажатых» (clamped) и «свободных» (unclamped) состояний.

Позже эта математическая основа приблизилась к классическому backpropagation благодаря модели рециркуляции (Recirculation) (Hinton & McClelland, 1988) и её обобщённому преемнику — алгоритму GeneRec (O'Reilly, 1996), который явно выводил аппроксимирующие backpropagation градиенты из локальных временных разностей.

Недавно эта эволюционная ветвь пополнилась методом равновесного распространения (Equilibrium Propagation) (Scellier & Bengio, 2017), который имеет схожую математическую структуру, но опирается на непрерывную минимизацию энергии. Предложенная здесь модель временной производной отличается от предшественников тем, что напрямую связывает абстрактные математические фазы с конкретными биологическими субстратами, такими как 200-миллисекундный таламокортикальный тета-ритм и молекулярные киназные переключатели.
🔥1
Она также работает параллельно со специализированными вспомогательными системами, такими как поведенческая синаптическая пластичность (Behavioral Timescale Synaptic Plasticity) (Magee, 2026), которая выступает в роли системы быстрого картирования для мгновенного декодирования медленно накапливающихся статистических представлений, формируемых глубоким кортикоталамическим распределением ответственности (credit assignment).

⚠️ Трудности масштабирования теории

Несмотря на теоретическое изящество, остаётся ряд серьёзных вопросов, без ответов на которые модель временной производной нельзя признать исчерпывающим описанием обучения в неокортексе. На структурном уровне, хотя модель подробно описывает роль проекций подушки таламуса, точные направляющие сигналы (driving target signals), координирующие пластичность выходных нейронов 5-го слоя неокортекса, остаются частично неясными. Текущая гипотеза опирается на широкие матричные таламические проекции из вентрального переднего ядра, но для подтверждения этого пути необходимы детальные экспериментальные исследования.

Кроме того, эмпирическая база модели основана на очень недавних и весьма специфических синаптических препаратах in vitro. Эти результаты нужно воспроизвести на других областях коры и на препаратах in vivo, чтобы доказать, что 200-миллисекундное временное разделение на тета-частоте действительно является универсальным вычислительным принципом неокортекса.

Наконец, с инженерной точки зрения, хотя модель уже реализована в спайковых нейронных сетях в рамках фреймворка Axon с ускорением на WebGPU, ещё предстоит доказать, что такое локальное фазовое обучение способно масштабироваться до уровня стандартного обратного распространения ошибки на современных массивных бенчмарках глубокого обучения.

🚀 Будущее нейроморфных чипов

Стратегическая ценность работы заключается в строгом следовании трёхкомпонентному подходу Марра (Marr's tri-level vision) — она успешно связывает абстрактные вычислительные требования с конкретным биологическим аппаратом. Доказывая, что неокортекс способен аппроксимировать математический градиент обратного распространения ошибки без нарушения биологических ограничений, статья стирает исторический барьер между искусственными и биологическими нейронными системами.

Для сообществ ИИ и разработчиков нейроморфного железа этот фреймворк имеет огромное значение. Он предлагает математически обоснованное локальное правило обучения, исключающее требовательный к памяти глобальный обратный проход (backward pass), характерный для традиционного глубокого обучения.

Реализация этого конкурентного правила временной разности на базе киназ в аналоговом кремнии или спайковом железе позволит создавать энергоэффективные нейроморфные устройства непрерывного обучения прямо на чипе. В конечном счёте, эта работа предлагает сильную рабочую гипотезу о механизмах обучения в неокортексе, предполагая, что самый мощный алгоритм искусственного интеллекта — это и есть тот самый механизм, который управляет человеческим мышлением.
🔥2