В 2017 году Vaswani et al. опубликовали «Attention Is All You Need». За 9 лет индустрия масштабировала одну идею: предсказание следующего токена по вероятности. GPT-5, Claude 4, Gemini 3, DeepSeek V3 — всё это варианты одной и той же архитектуры с разным количеством параметров и инженерными надстройками: Mixture-of-Experts, routing, extended context windows. Фундамент не изменился: P(next_token | context) → softmax → argmax. Модель не понимает — она подбирает статистически вероятное продолжение. И вот что говорят те, кто строит эти модели:
> «В индустрии ИИ есть секрет, который тщательно скрывают: вот уже больше года передовые модели, похоже, уперлись в свой потолок.» (HEC Paris, ноябрь 2025)
> «Эпоха революционных скачков, возможно, уступает место итеративным улучшениям архитектуры, которая близка к своим пределам... индустрия достигла локального максимума.» (Algorithma AI Whitepaper, август 2025)
Это не маргинальная позиция. Это консенсус, который индустрия пока боится произнести вслух.
Три фундаментальных порока трансформера
Квадратичная сложность
Self-attention требует, чтобы каждый токен «посмотрел» на каждый другой токен в контексте. Вычислительная сложность —O(n²) по длине последовательности. Это делает обработку длинных контекстов (книги, кодовые базы, видеопотоки) экономически и технически неподъёмной без костылей вроде sliding window и sparse attention.
Провал композициональных рассуждений
Технический анализ показал, что один слой attention доказуемо неспособен надёжно вычислить композицию функций — базовый строительный блок логического мышления. Чтобы ответить на вопрос «Кто бабушка Йенса по материнской линии?», нужно последовательно вычислитьmother(mother(Jens)). Трансформер не может этого сделать надёжно при достаточно большом домене сущностей из-за информационного bottleneck в механизме attention. Практическое следствие - галлюцинации. Модель не может систематически вывести ответ и подбирает статистически правдоподобный, но логически неверный. Это свойство архитектуры.
Отсутствие рекурсии и иерархии
Feedforward-природа трансформера означает, что количество вычислительных трансформаций ограничено глубиной модели. Это исключает истинную рекурсивную обработку и моделирование глубоких иерархических структур, которые центральны для человеческого языка и мышления.Стена масштабирования
ОбучениеGPT-4 стоило более €100 млн и потребовало в 55 раз больше вычислительных ресурсов, чем GPT-3. При этом прирост на MMLU — с 43.9% до 86.4% — не пропорционален 55-кратному увеличению compute. После GPT-4 кривая сплющилась. Все frontier-модели инкрементально ползут к ~90% на стандартных бенчмарках. GPT-5 — не новая архитектура, а «unified system» из нескольких моделей с роутером. Llama 4 — MoE-надстройка над тем же трансформером. Mistral специализирует модели вместо масштабирования. Google интегрирует Gemini в продукты вместо погони за бенчмарками. Все крупные игроки молча признали, что brute-force scaling трансформеров больше не работает. Добавим к этому кризис данных: высококачественный текст в интернете конечен и быстро исчерпывается. Обучение на синтетических данных от других моделей ведёт к деградации качества в цикле обратной связи.
Альтернативы уже здесь
Пока индустрия масштабирует трансформеры, альтернативные архитектуры тихо набирают силу. И результаты есть в рецензируемых журналах.Reservoir computing как языковая модель
В январе 2026 года Köster и Uchida (Saitama University) опубликовали «Reservoir Computing as a Language Model» — первое систематическое сравнение reservoir computing (RC) с трансформерами на задаче языкового моделирования. Ключевые результаты: Attention-Enhanced Reservoir Computer (AERC) показал, что RC может быть конкурентоспособной альтернативой трансформерам. LAERC [3] показывает, что RC обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU.Формат знаний
: какое представление извлечённых знаний оптимально для загрузки в не-трансформерную архитектуру? Embedding vectors, knowledge graphs, или гибридные схемы?Замена attention
: какая вычислительная парадигма обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU? Результаты LAERC [3] показывают, что reservoir computing — серьёзный кандидат.Output synthesis
: как обеспечить генерацию естественного языка из семантического представления без вероятностного подбора токенов?Substrate independence
: может ли когнитивная архитектура быть реализована на нейроморфном или аналоговом hardware? Nature уже говорит — да.Трансформер не умрёт завтра, как лошадь не умерла в день изобретения автомобиля. GPT, Claude, Gemini будут работать и приносить деньги ещё годы. Но архитектурный сдвиг уже начался.