2026 год в разгаре: мы пережили новогодние обновления фреймворков, свежие релизы ИИ-моделей и, возможно, первые эксперименты с AGI в labs. Но после праздничного кода и кофе пора нырнуть в фундаментальное — как сделать ИИ, который не просто генерирует текст, а эволюционирует в реальном времени. Около месяца назад Google Research анонсировали архитектуру HOPE с вложенным обучением для непрерывной памяти. А теперь — свежий пост о более ранних, но потенциально революционных работах: Titans и фреймворке MIROS. Это гибрид рекуррентных сетей и трансформеров, где память обновляется на лету через "сюрприз".
Современные LLM (Large Language Models) — мастера предсказаний, но с памятью у них беда. Они полагаются на контекстное окно — буфер текста, который обрабатывается целиком. Проблема? Квадратичная сложность внимания: для n токенов вычисления растут как O(n²). Удвойте контекст — нагрузка вырастет вчетверо. На миллионах токенов это ад для GPU.
Рекуррентные модели (Mamba, RWKV, RetNet) решают это линейно: O(n). Они сжимают историю в фиксированное скрытое состояние, как конвейер. Быстро, но память "золотой рыбки" — старое вытесняется новым, детали теряются.
Google предлагает третий путь: Titans — архитектура, где память — это глубокая нейронная сеть внутри модели, обновляемая через градиентный спуск во время инференса (test-time training). А MIROS — теоретический фреймворк, обобщающий это на все последовательные модели. Ключ — "сюрприз" (surprise metric): модель фиксирует только неожиданное, как мозг запоминает вертолет на дороге, а не рутинную поездку.
Аналогия такая: Читая "Войну и мир", вы помните Пьера Безухова через сотни страниц, но не каждое слово. Мозг сжимает смыслы. Titans делают то же: фильтруют шум, сохраняют суть.
В Titans модель предсказывает следующий токен. Если прогноз сбывается ("мама мыла раму") — сюрприз низкий, градиент ошибки ~0, память не обновляется. Если ломается ("мама мыла синхрофазотрон") — всплеск градиента, модель "кричит": "Важно! Запиши в long-term memory".
Память — не вектор, а MLP (многослойный перцептрон) внутри модели. Short-term — attention на текущем куске. Long-term — обновляется градиентом на сюрпризе.
Два механизма контроля:
Momentum: Учитывает накопленный сюрприз, не только мгновенный.
Forget Gate (адаптивный weight decay): Активно забывает ненужное, освобождая место.
Интеграция памяти в три варианта:
MAC (Memory as Context): Память как дополнительный контекст перед attention. Лучше для сверхдлинных последовательностей (2M токенов).
MAG (Memory as Gate): Смешивает с основным потоком через гейт.
MAL (Memory as Layer): Как отдельный слой.
Тесты: Titans (1-2B параметров) бьют GPT-4 на 2M токенах. Идеально проходят "иголку в стоге сена" — тест, где факт (типа "пароль 3578") прячут в середине огромного текста. Старые модели теряют середину; Titans — нет.
MIROS видит трансформеры, Mamba, RetNet и Titans как вариации онлайн-оптимизации: подстройка параметров под новые данные в реальном времени.
Четыре компонента MIROS:
M (Memory Architecture): От скаляра/вектора до MLP (как в Titans).
I (Internal Loss): Целевая функция (L2, но можно дальше — attentional bias).
R (Retention Gate): Регуляризатор забывания (Elastic Net, KL-дивергенция).
O (Optimization Algorithm): Как обновлять (SGD с momentum, closed-form как в linear attention).
S (Surprise Metric): Метрика для триггера обновлений.
На базе MIROS — три экспериментальные модели:
Moneta: Lp-норма вместо L2 — устойчива к шуму.
YAAD: Huber loss — квадратична у нуля, линейна на хвостах; игнорирует выбросы.
Memora: ElasticNet + KL для стабильности.
Это шаг к stateful моделям: от stateless (читают контекст заново) к динамической памяти. Attention — short-term, weights — long-term. Titans сливают их: модель "умнеет" к концу текста, перестраивая синапсы.
Связь с биологией: Инференс = часть обучения, как active inference Карла Фристона. Не бесконечное окно, а эволюционирующая память.
Споры о LLM как тупике? Нет: Titans — эволюция LLM. "Large" — миллиарды параметров; "Language Model" — предсказание токенов. Трансформеры — текущий "двигатель", Titans — гибридный. Будущие LLM будут мультимодальными, с бесконечной памятью без угасания.
Это не пузырь: вложенное обучение (как в HOPE) + Titans ведут к биоподобному ИИ.
Источник 🚀
Источник


