gonzo_ML_podcasts

Наконец, модели, сочетающие рекуррентность как по глубине, так и по шагам — например, RMT (https://arxiv.org/abs/2207.06881) (Ratio > 1), Feedback Transformer (https://arxiv.org/abs/2002.09402) (Ratio = 1) или архитектуры с непрерывным мышлением вроде COCONUT (https://arxiv.org/abs/2412.06769) (Ratio < 1), — возвращают латентные «мысли» в качестве входа на протяжении нескольких авторегрессионных шагов. Этот квадрант обладает наивысшей выразительной способностью для последовательного отслеживания, пусть и ценой снижения пропускной способности при параллельном обучении.

🧠 Костыли явного CoT

Самым популярным костылем для решения дилеммы «глубина-состояние» в коммерческих моделях стала генерация явной цепочки рассуждений (CoT). Модель заставляют выводить свои промежуточные рассуждения вовне в виде последовательности токенов. Благодаря этому глубокие представления состояний записываются в контекстное окно и считываются обратно на поверхностных слоях на последующих шагах. Хотя это успешно обходит топологический лимит, авторы характеризуют CoT как неэффективную «отговорку» (cop-out) для рутинного, автоматического мышления.

Для быстрых ментальных процессов — таких как разрешение многозначности слов или простое отслеживание объектов в игре «двадцать вопросов» — генерация явного потока токенов впустую расходует память и вычисления. Более того, качественные эксперименты с моделями вроде Gemini 3 Thinking показывают, что явная генерация не гарантирует надёжного использования состояния. Даже если нужный объект был правильно выбран в процессе «размышления», последующие шаги генерации всё равно могут потерять согласованность.

Авторы утверждают, что фундаментальные модели должны перейти от явных цепочек рассуждений к неявной динамике рекуррентных активаций, которая обновляет состояние убеждений тихо и непрерывно на заднем плане.

🚀 Куда двигаться дальше

Чтобы внедрить неявное отслеживание состояния в фундаментальные модели без потери преимуществ их масштабирования, в статье выделяются пять перспективных исследовательских направлений.

Во-первых, улучшенные модели в пространстве состояний (SSM) и новые механизмы линейного внимания (например, DeltaNet с гейтингом, https://tg-me.sbs/gonzo_ML/5428) предлагают возможности параллельного обучения, демонстрируя при этом способность к отслеживанию состояний, превосходящую стандартные трансформеры.

Во-вторых, аппроксимация отслеживания состояний в полносвязных сетях может быть достигнута с помощью специализированных лоссов и структурных априорных допущений, которые заставляют стандартные трансформеры формировать структурированные композиционные представления для ретроспективного поиска (lookback).

В-третьих, крупноблочная рекуррентность (coarse recurrence) позволяет снизить вычислительную нагрузку пошагового обновления состояний. Для этого рекуррентность вводится на более крупном масштабе — например, язык моделируется как последовательность дискретных «мыслей» на уровне предложений, как в модели sentence gestalt от Borazjanizadeh and McClelland (https://tg-me.sbs/gonzo_ML/4618).

В-четвёртых, выравнивание репрезентаций (representational alignment) использует естественное соответствие представлений между слоями и шагами, возникающее благодаря residual connections. Это упрощает динамический выбор глубины слоёв и обмен информацией.

В-пятых, парадигмы эффективного рекуррентного обучения — например, многоэтапное обучение, где стандартное полносвязное предобучение затем дополняется рекуррентными связями, обучаемыми с помощью рекуррентного обратного распространения ошибки (recurrent backpropagation). Это позволяет обойти бутылочные горлышки параллелизации, возникающие при обучении рекуррентных сетей с нуля.

🛑 Главные вызовы рекуррентности

👍1

119 views11:29