Долгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но когДолгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но ког

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита

05dfb2c361c3b20c0dd9709744b97ae1.png

Долгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но когда счета за обучение GPT-4 превысили $100 миллионов, а инференс начал требовать промышленных масштабов энергии, стало ясно: «грубая сила» больше не работает. Индустрии срочно понадобился способ разорвать связку «умнее = дороже».

И решением стала архитектура Mixture-of-Experts (MoE). Суть метода проста: перестать «думать» всей нейросетью над каждой задачей и научить модель активировать ресурсы выборочно. Такое выборочное использование вычислений позволяет наращивать число параметров, не превращая модель в прожорливого монстра.

Причем эта идея не новая. Google экспериментировал с ней ещё в 2017-м, потом была пара академических проектов, а дальше технология благополучно канула в небытие. Трансформеры вроде GPT захватили рынок, и про MoE все дружно забыли. Но в последние пару лет MoE резко вернулась: Mixtral и Mistral 3, DeepSeek, DBRX, Qwen, Kimi K2 Thinking. И список громких релизов пополняется чуть ли не ежемесячно.

Давайте разбираться, что стоит за этим возвращением и действительно ли МоЕ станет решением всех проблем.


Классический трансформер: всё для всех

Старый добрый трансформер работает предсказуемо: каждый токен проходит через механизм внимания, затем через прямую сеть (feed-forward network, FFN), и так слой за слоем. Все параметры модели активны для каждого входящего токена. Если у вас GPT-3 на 175 миллиардов параметров, то каждый токен прогоняется через все 175 миллиардов. Неважно, простой это запрос вроде «назови столицу Франции» или сложное рассуждение — модель задействует всю свою мощность.

Проблема в том, что это масштабируется линейно. Удвоили количество параметров — удвоили вычисления на каждый токен. И так пока у вас не кончатся деньги (а они кончатся быстро). При этом для большинства задач модели не нужна вся её емкость (capacity) одновременно. Когда трансформер обрабатывает запрос про погоду, ему не особо нужны параметры, отвечающие за генерацию кода или перевод с китайского. Но он их всё равно использует, потому что архитектура не дает выбора.

MoE: разделяй, властвуй и экономь

Mixture-of-Experts разбивает эту монолитную структуру. Вместо одного гигантского FFN-слоя модель получает набор специализированных «экспертов» — по сути, несколько меньших прямых сетей. Для каждого токена активируется только часть из них, релевантная конкретной задаче. Остальные просто не участвуют в вычислениях.

Источник изображения
Источник изображения

Принцип простой: если у вас есть восемь экспертов, но для каждого токена работают только два, вычислительная стоимость растет не в восемь раз по сравнению с одним экспертом, а всего в два. При этом общая емкость модели — все восемь экспертов — остается доступной, когда она нужна. Разреженная активация позволяет обойти прямую зависимость между размером модели и затратами на инференс.

Этот подход известен как «divide and conquer», и он работает именно потому, что разные типы запросов требуют разных знаний. Модель сама учится распределять задачи между экспертами в процессе обучения.

Под капотом: маршрутизатор и эксперты

Центральный элемент MoE — это маршрутизатор (router, он же gating network). Это небольшая нейросеть, которая для каждого токена вычисляет вероятности того, какие эксперты лучше подходят для его обработки. На выходе получается набор весов для каждого эксперта. Дальше применяется Top-K отбор: выбираются только K экспертов с наибольшими весами, остальные обнуляются.

Источник изображения
Источник изображения

Допустим, у вас восемь экспертов и Top-2 отбор. Маршрутизатор выдал веса [0,4, 0,3, 0,15, 0,1, 0,03, 0,01, 0,01, 0,0]. Выбираются первые два эксперта с весами 0,4 и 0,3. После Top-K отбора эти веса ренормализуются, чтобы их сумма равнялась единице:

\frac{0{,}4}{0{,}4 + 0{,}3} \approx 0{,}57\frac{0{,}3}{0{,}4 + 0{,}3} \approx 0{,}43

Выходы этих двух экспертов комбинируются с нормализованными весами, остальные шесть экспертов не активируются. Маршрутизатор обучается вместе со всей моделью и со временем учится правильно распределять запросы.

Сами эксперты — это обычно FFN-блоки, но меньшего размера, чем был бы единый слой в плотной (dense) модели. Если в классическом трансформере FFN имеет, скажем, 4096 нейронов в скрытом слое, то каждый эксперт в MoE может иметь 512. При восьми экспертах и Top-2 активации суммарно задействуется 1024 нейрона вместо 4096 — в четыре раза меньше.

Важный нюанс: MoE не заменяет модель целиком, а только FFN-слои. Механизм self-attention остается плотным — каждый токен по-прежнему смотрит на все остальные токены в контексте. Разреженность применяется именно там, где она даёт максимальную отдачу: в слоях прямого распространения, которые отвечают за трансформацию представлений. В типичном трансформере эти слои занимают примерно две трети всех параметров модели, так что только их замена уже даёт существенную экономию.

Стандартный блок Feed Forward заменяется на Switch FFN Layer, в то время как блок Self-Attention остается неизменным. Источник изображения
Стандартный блок Feed Forward заменяется на Switch FFN Layer, в то время как блок Self-Attention остается неизменным. Источник изображения

Выходы активированных экспертов комбинируются через взвешенную сумму. Каждый эксперт обрабатывает токен независимо, выдает свой вектор, затем эти векторы складываются с нормализованными весами от маршрутизатора.

Если после нормализации первый эксперт получил вес 0,57, а второй 0,43, то итоговый результат будет 0,57 × выход₁ + 0,43 × выход₂. Маршрутизация происходит для каждого токена независимо: в одном предложении первый токен может активировать экспертов 2 и 5, второй — экспертов 1 и 7, третий — снова 2 и 3. Это создает динамическую, адаптивную структуру вычислений.

Конкретный пример: Mixtral 8x7B от Mistral AI. Название немного обманчиво: «8x7B» звучит как восемь экспертов по 7 миллиардов параметров, то есть 56 миллиардов в сумме. На деле общее количество параметров — 46,7 миллиарда, потому что многие компоненты (особенно слои self-attention) общие для всех экспертов и не дублируются.

Только FFN-слои реализованы как восемь отдельных экспертов, каждый примерно на 5,6 миллиарда параметров. Для каждого токена активируются только два эксперта — около 12,9 миллиарда параметров. Forward pass требует 26 миллиардов операций с плавающей точкой (FLOPs) — это 2 × 12,9B активных параметров на токен.

Эквивалентная плотная модель на 46,7 миллиарда параметров потребовала бы 93,4 миллиарда FLOPs — почти в четыре раза больше. При этом качество Mixtral сопоставимо с гораздо более крупными плотными моделями вроде Llama 2 70B. Экономия очевидна.

Какой путь прошла MoE за последние годы?

Как вообще получилось, что технология, о которой почти никто не вспоминал до 2021 года, сегодня стала одним из определяющих трендов развития моделей?

Идея Mixture-of-Experts появилась ещё в 1991 году в работе Джейкобса, Джордана и Хинтона — вместо одной большой сети использовать систему специализированных подсетей-экспертов с маршрутизатором между ними. Технология спокойно пылилась в академических архивах до 2017-го, когда команда Google Brain во главе с Ноамом Шазиром решила масштабировать её по-настоящему. Они применили разреженную активацию экспертов к LSTM-модели и довели её до 137 миллиардов параметров для машинного перевода.

Вариант реализации МоЕ из исследования 2017 года. Источник изображения
Вариант реализации МоЕ из исследования 2017 года. Источник изображения

Эксперимент не удался. Обучение было нестабильным: маршрутизатор упорно выбирал одних и тех же любимчиков — популярные эксперты получали больше данных, становились ещё лучше, остальные превращались в цифровой шум. Классический эффект «богатые богатеют». Коммуникация между GPU сжирала 77% времени — передача данных оказалась дороже самих вычислений. Готовых инструментов не было, численная нестабильность при пониженной точности добавляла веселья.

На следующие три года индустрия про MoE забыла. BERT, GPT-2, GPT-3 показывали отличные результаты при простом увеличении размера. Законы масштабирования Каплана обещали предсказуемое улучшение от добавления параметров. Зачем возиться со сложной архитектурой, если плотные модели работают стабильно?

Поворотный момент случился в январе 2021 года, когда та же команда Google Brain опубликовала Switch Transformers. Радикальное упрощение — активация только одного эксперта вместо двух — дало семикратное ускорение обучения. Они решили проблему нестабильности через выборочную точность вычислений (полная точность для маршрутизатора, пониженная для экспертов) и улучшенную инициализацию. Модель масштабировалась до 1,6 триллиона параметров и была выпущена в открытый доступ. Это доказало, что MoE может работать стабильно на больших масштабах. Но индустрия всё ещё не спешила строить коммерческие модели на MoE — плотные трансформеры продолжали доминировать, а разреженная активация оставалась академической игрушкой.

Ситуация изменилась в 2024 году. Появились первые открытые MoE-модели, которые работали не хуже закрытых аналогов. Стоимость обучения упала на порядок. 2025 год принес взрывной рост: Meta впервые перешла на MoE в линейке Llama, китайские компании выкатили целые серии моделей — от DeepSeek до Qwen. За два года разреженная активация прошла путь от диковинки до архитектурного выбора для крупнейших моделей. Но что именно сделало это возможным и как это реализовали?

Почему именно сейчас: факторы возвращения

Итак, рассказываем. В 2023–2025 годах получилось интересное стечение обстоятельств: несколько не связанных друг с другом событий совпали по времени. Появились алгоритмы, которые решили проблемы нестабильности. Вышло новое поколение железа. Изменилось понимание экономики обучения и инференса. И всё это произошло одновременно, хотя никто специально не координировал процесс.

Обзор нескольких ключевых MoE-моделей в хронологическом порядке. Источник изображения
Обзор нескольких ключевых MoE-моделей в хронологическом порядке. Источник изображения

Начнем с алгоритмов. В феврале 2022 года в работе ST-MoE представили Router Z-Loss — дополнительный член функции потерь, который штрафует слишком большие логиты перед маршрутизатором. Звучит как мелочь, но это решило проблему численных ошибок в softmax при пониженной точности. Экспоненциальные функции крайне чувствительны к округлениям — небольшая ошибка в логите превращается в катастрофу после экспоненты. Router Z-Loss сжимает диапазон значений и стабилизирует обучение. ST-MoE масштабировалась до 269 миллиардов параметров и впервые показала state-of-the-art результаты в transfer learning для разреженных моделей.

Декабрь 2024 года принес auxiliary-loss-free подход от DeepSeek. До этого все упирались в классический компромисс: без балансировки одни эксперты перегружены, другие простаивают. Добавляешь вспомогательную функцию потерь — улучшается распределение, ухудшается качество. DeepSeek решила это через динамические смещения: для каждого эксперта вводится bias-терм, который автоматически корректируется во время обучения. Если эксперт недозагружен, его смещение растёт, делая его более привлекательным для маршрутизатора. Если перегружен — уменьшается. Смещение влияет только на выбор top-K экспертов, не затрагивая основную функцию потерь. Результат: DeepSeek-V3 обучилась полностью без скачков потерь и откатов, без отброшенных токенов.

Метод балансировки без потерь (Loss-Free Balancing) на каждом шаге обучения отбирает экспертов на основе «смещенной оценки шлюза» (biased gating score) и обновляет это смещение для каждого эксперта после каждого шага обучения. Источник изображения
Метод балансировки без потерь (Loss-Free Balancing) на каждом шаге обучения отбирает экспертов на основе «смещенной оценки шлюза» (biased gating score) и обновляет это смещение для каждого эксперта после каждого шага обучения. Источник изображения

Параллельно появилась мелкозернистая сегментация экспертов. Вместо восьми крупных экспертов стали использовать большее количество мелких с уменьшенной размерностью, при этом активируется больше экспертов одновременно при той же вычислительной стоимости.

К примеру, DBRX от Databricks использует 16 экспертов и активирует 4 из них, что дает C(16,4) = 1820 возможных комбинаций против C(8,2) = 28 у модели с восемью экспертами — в 65 раз больше вариантов при той же вычислительной стоимости. Это обеспечивает лучшую валидационную потерю и точность на конкретных задачах.

FP8-обучение от DeepSeek-V3 стало первым доказательством того, что крупномасштабные языковые модели можно обучать в 8-битной точности. Tile-wise квантизация для активаций, block-wise для весов, FP8 для основных матричных операций, но полная точность для эмбеддингов, маршрутизации и нормализации. Теоретически это удваивает скорость вычислений по сравнению с BF16, хотя на практике цифры зависят от конкретного железа и оптимизаций — реальное ускорение варьируется от 1,5x до 4x в зависимости от задачи.

Общая схема обучения со смешанной точностью (mixed precision) с использованием формата данных FP8. Входные данные и веса преобразуются в FP8 непосредственно перед матричными операциями. Источник изображения
Общая схема обучения со смешанной точностью (mixed precision) с использованием формата данных FP8. Входные данные и веса преобразуются в FP8 непосредственно перед матричными операциями. Источник изображения

Экономика тоже изменила правила игры. В 2022 году исследование Chinchilla показало оптимальное соотношение: 20 токенов данных на параметр модели. Но это было оптимально только для обучения. Работа «Beyond Chinchilla-Optimal» в 2023-м перевернула понимание: если учитывать стоимость инференса, выгоднее обучать меньшие модели дольше.

Формула активных параметров в MoE:

N_{\text{active}} = N_{\text{total}} \times \left( \frac{k}{E} \right),

где k — число активируемых экспертов, E — общее число экспертов.

Для модели с восемью экспертами и top-2 активацией это 2/8 = 0,25от общего числа параметров. Вычислительная стоимость токена для MoE — FLOPs \approx 2 \times N_{\text{active}}, тогда как для плотной модели того же размера FLOPs \approx 2 \times N_{\text{total}}. Разница в четыре раза для конфигурации 2 из 8. Когда счета за инференс превышают ВВП небольших стран, это уже не мелочь.

Железо дозрело в 2022 году с выходом NVIDIA H100. До 4x прирост производительности обучения GPT-3 по сравнению с A100, до 9x ускорение для MoE-моделей, NVLink 4.0 с пропускной способностью 900 ГБ/с, нативная поддержка FP8. Одновременно появились Megablocks — библиотека со специализированными GPU-ядрами, заточенными под динамические рабочие нагрузки MoE. Блочно-разреженные операции вместо пакетного умножения матриц, никогда не отбрасывают токены, учитывают несбалансированное распределение нагрузки. Это ускорило обучение в разы — до 40% по сравнению с предыдущими подходами.

Инфраструктура перестала быть проблемой. HuggingFace интегрировала MoE в библиотеку transformers, движки инференса вроде vLLM и KTransformers добавили поддержку разреженных моделей, инструменты квантизации GPTQ и AWQ адаптировали под MoE. Что в 2017-м требовало писать фреймворки с нуля, в 2024-м — несколько строк конфига.

Открытый код запустил цепную реакцию. После релиза Mixtral сообщество взорвалось экспериментами. Появились десятки проектов, оптимизаций, адаптаций. Китайские компании начали гонку релизов — каждая новая модель привносила свои инновации. Конкуренция ускорила развитие сильнее, чем могли бы сделать отдельные компании в закрытой разработке. Цикл обратной связи сократился с месяцев до недель: выходит новая техника, через пару недель кто-то её улучшает и публикует результаты.

Но не всё так радужно

MoE решила проблему вычислительных затрат, но взамен подарила новые головные боли. Некоторые уже имеют рабочие решения, другие остаются открытыми вопросами.

Память — первая загвоздка. MoE экономит вычисления, но не объем памяти. Маршрутизатору нужен доступ ко всем экспертам, чтобы выбирать между ними, поэтому все должны быть загружены одновременно. Mixtral на 47 миллиардов параметров занимает столько же памяти, сколько плотная модель того же размера, хотя активируется только 27% параметров. Появились техники offloading — активных экспертов держать в быстрой памяти GPU, остальных скидывать в CPU RAM, но это добавляет задержки на передачу данных.

Коммуникация между GPU при распределенном обучении съедает ресурсы. Токены должны передаваться тем устройствам, где находятся нужные эксперты. All-to-all синхронизация происходит четыре раза за цикл обучения на каждом MoE-слое — дважды при прямом проходе и дважды при обратном. При масштабировании на сотни GPU накладные расходы растут быстрее, чем число устройств. DeepSeek-V3 перекрывает коммуникацию вычислениями, но это требует сложной оркестрации.

Специализация экспертов — вопрос, который до конца не закрыт. Исследования показывают: эксперты часто сходятся в практически идентичных представлениях, даже в хорошо работающих моделях. Сходство может достигать 99% на разных входных данных. Без разнообразия вся концепция разделения труда теряет смысл. Мелкозернистая сегментация помогает, но полного понимания механизмов специализации пока нет.

Что вообще выучил каждый эксперт? Почему маршрутизатор выбирает конкретных для конкретных токенов? Интерпретируемость MoE остается загадкой. В плотной модели можно хоть как-то отследить поток информации через слои. Здесь же выбор динамический и зависит от входа. Более того: эксперименты показали, что замороженные случайно инициализированные маршрутизаторы дают конкурентные результаты, хоть и с проблемами балансировки. Если случайный выбор работает, что это вообще говорит о природе экспертизы?

Дообучение на конкретных задачах сложнее. При фиксированной точности предобучения разреженные модели уступают плотным на задачах с рассуждениями. Instruction tuning помогает MoE сильнее, чем плотным моделям, но общего рецепта эффективного fine-tuning нет.

При больших размерах батча вся экономия испаряется. Для H100 критический размер батча около 330. После этого порога чтение из памяти занимает больше времени, чем арифметика, и экономия на активных параметрах не играет роли. Разреженные вычисления вообще плохо ложатся на архитектуру современных GPU, спроектированных для плотных матричных операций.

И главное — теория безнадежно отстала от практики. Многие архитектурные решения принимаются методом тыка: пробуем разное количество экспертов, смотрим на результаты. Сколько экспертов оптимально для задачи? Почему мелкозернистая сегментация эффективнее? Как связаны разнообразие экспертов и обобщающая способность? Формальный математический анализ мог бы ответить на эти вопросы и заменить дорогую подстройку параметров, но его пока нет.

Так решает ли MoE парадокс масштабирования?

Вернемся к вопросу из начала: удалось ли разорвать связку «больше параметров = пропорционально больше затрат»? По большому счету — да. Разреженная активация дает экономию вычислений в три-четыре раза при сопоставимом качестве с плотными моделями. Стоимость обучения упала на порядок. Формула работает: активируешь четверть параметров, получаешь четырехкратную экономию FLOPs. В этом смысле парадокс решен.

Но не полностью. Затыки, о которых мы говорили выше — память, коммуникация, специализация экспертов — никуда не делись. Это не готовое решение, а компромисс: вычислительная эффективность за инфраструктурную сложность. Вопрос в том, готова ли индустрия платить эту цену. Судя по релизам последней пары лет — готова.

Движение уже началось. Появляются более гибкие стратегии маршрутизации — soft routing, где активируются все эксперты с разными весами, и learned routing, где маршрутизатор адаптируется под конкретные домены. Hierarchical MoE экспериментирует с вложенными слоями экспертов. Производители железа тоже не сидят на месте — следующее поколение ускорителей проектируют с учетом разреженных вычислений, а не только плотных матричных операций.

MoE не решила все проблемы масштабирования, но изменила правила игры. Раньше путь был один: больше параметров, больше денег, больше GPU. Теперь есть выбор: можно масштабировать общее количество параметров без пропорционального роста затрат на инференс. Это уже сдвиг парадигмы — от линейного масштабирования к разреженному. И дальше нас ждет еще больше крупных моделей с участием MoE.

На этом у нас всё! Интересно услышать, что думаете вы: действительно ли за МоЕ будущее или ее роль сильно переоценена?

Источник

Возможности рынка
Логотип Large Language Model
Large Language Model Курс (LLM)
$0.0003073
$0.0003073$0.0003073
-8.45%
USD
График цены Large Language Model (LLM) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Правоохранительные органы США и ЕС закрыли криптовалютную биржу под управлением России

Правоохранительные органы США и ЕС закрыли криптовалютную биржу под управлением России

Федеральное бюро расследований США (ФБР) ликвидировало платформу по отмыванию денег, которая предоставляла услуги по обналичиванию киберпреступникам с использованием криптовалюты.
Поделиться
Cryptopolitan2025/12/19 04:15
Прогноз цены SEI указывает на краткосрочное восстановление от зоны поддержки

Прогноз цены SEI указывает на краткосрочное восстановление от зоны поддержки

SEI демонстрирует ранние признаки возможного разворота после удержания ключевого уровня поддержки. Рыночные настроения указывают на то, что медведи теряют импульс, в то время как покупатели
Поделиться
Tronweekly2025/12/19 04:20
Прогноз цены XRP: XRP подает сигналы разворота из зоны перепроданности, поскольку RSI падает до 33, а ключевая поддержка удерживается

Прогноз цены XRP: XRP подает сигналы разворота из зоны перепроданности, поскольку RSI падает до 33, а ключевая поддержка удерживается

XRP снова в центре внимания, поскольку нарастающее давление продавцов толкает ключевые индикаторы импульса в зону перепроданности, вызывая новые дебаты о том, приближается ли рынок
Поделиться
Brave Newcoin2025/12/19 02:00