Переход от трансформеров: использование LLM для создания ИИ-агентов

В 2017 году Vaswani et al. опубликовали «Attention Is All You Need». За 9 лет индустрия масштабировала одну идею: предсказание следующего токена по вероятности. GPT-5, Claude 4, Gemini 3, DeepSeek V3 — всё это варианты одной и той же архитектуры с разным количеством параметров и инженерными надстройками: Mixture-of-Experts, routing, extended context windows. Фундамент не изменился: P(next_token | context) → softmax → argmax. Модель не понимает — она подбирает статистически вероятное продолжение. И вот что говорят те, кто строит эти модели:

> «В индустрии ИИ есть секрет, который тщательно скрывают: вот уже больше года передовые модели, похоже, уперлись в свой потолок.» (HEC Paris, ноябрь 2025)

> «Эпоха революционных скачков, возможно, уступает место итеративным улучшениям архитектуры, которая близка к своим пределам... индустрия достигла локального максимума.» (Algorithma AI Whitepaper, август 2025)

Это не маргинальная позиция. Это консенсус, который индустрия пока боится произнести вслух.

Три фундаментальных порока трансформера

Квадратичная сложность

Self-attention требует, чтобы каждый токен «посмотрел» на каждый другой токен в контексте. Вычислительная сложность — O(n²) по длине последовательности. Это делает обработку длинных контекстов (книги, кодовые базы, видеопотоки) экономически и технически неподъёмной без костылей вроде sliding window и sparse attention.

Провал композициональных рассуждений

Технический анализ показал, что один слой attention доказуемо неспособен надёжно вычислить композицию функций — базовый строительный блок логического мышления. Чтобы ответить на вопрос «Кто бабушка Йенса по материнской линии?», нужно последовательно вычислить mother(mother(Jens)). Трансформер не может этого сделать надёжно при достаточно большом домене сущностей из-за информационного bottleneck в механизме attention. Практическое следствие - галлюцинации. Модель не может систематически вывести ответ и подбирает статистически правдоподобный, но логически неверный. Это свойство архитектуры.

Отсутствие рекурсии и иерархии

Feedforward-природа трансформера означает, что количество вычислительных трансформаций ограничено глубиной модели. Это исключает истинную рекурсивную обработку и моделирование глубоких иерархических структур, которые центральны для человеческого языка и мышления.

Стена масштабирования

Обучение GPT-4 стоило более €100 млн и потребовало в 55 раз больше вычислительных ресурсов, чем GPT-3. При этом прирост на MMLU — с 43.9% до 86.4% — не пропорционален 55-кратному увеличению compute. После GPT-4 кривая сплющилась. Все frontier-модели инкрементально ползут к ~90% на стандартных бенчмарках. GPT-5 — не новая архитектура, а «unified system» из нескольких моделей с роутером. Llama 4 — MoE-надстройка над тем же трансформером. Mistral специализирует модели вместо масштабирования. Google интегрирует Gemini в продукты вместо погони за бенчмарками. Все крупные игроки молча признали, что brute-force scaling трансформеров больше не работает. Добавим к этому кризис данных: высококачественный текст в интернете конечен и быстро исчерпывается. Обучение на синтетических данных от других моделей ведёт к деградации качества в цикле обратной связи.

Альтернативы уже здесь

Пока индустрия масштабирует трансформеры, альтернативные архитектуры тихо набирают силу. И результаты есть в рецензируемых журналах.

Reservoir computing как языковая модель

В январе 2026 года Köster и Uchida (Saitama University) опубликовали «Reservoir Computing as a Language Model» — первое систематическое сравнение reservoir computing (RC) с трансформерами на задаче языкового моделирования. Ключевые результаты: Attention-Enhanced Reservoir Computer (AERC) показал, что RC может быть конкурентоспособной альтернативой трансформерам. LAERC [3] показывает, что RC обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU.

Формат знаний

: какое представление извлечённых знаний оптимально для загрузки в не-трансформерную архитектуру? Embedding vectors, knowledge graphs, или гибридные схемы?

Замена attention

: какая вычислительная парадигма обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU? Результаты LAERC [3] показывают, что reservoir computing — серьёзный кандидат.

Output synthesis

: как обеспечить генерацию естественного языка из семантического представления без вероятностного подбора токенов?

Substrate independence

: может ли когнитивная архитектура быть реализована на нейроморфном или аналоговом hardware? Nature уже говорит — да.

Трансформер не умрёт завтра, как лошадь не умерла в день изобретения автомобиля. GPT, Claude, Gemini будут работать и приносить деньги ещё годы. Но архитектурный сдвиг уже начался.