- تعریف و تاریخچه معماری MoE
معماری (Mixture of Experts) یا به اختصار MoE، رویکردی برای افزایش ظرفیت مدلهای یادگیری عمیق بدون افزایش متناسب هزینه محاسباتی است. در این رویکرد به جای یک مدل یکپارچه (dense) که همه پارامترهای آن برای هر ورودی فعال میشوند، مجموعهای از متخصصها (زیر-شبکههای عصبی تخصصی) وجود دارد که هر کدام بر بخشی از الگوهای داده مسلط میشوند. یک شبکه مسیریاب یا دروازه به عنوان هماهنگکننده عمل کرده و تصمیم میگیرد هر قطعه از ورودی به کدام متخصص (یا چند متخصص برتر) ارسال شود. بدین ترتیب برای هر ورودی تنها کسر کوچکی از پارامترهای کل مدل فعال شده و سایر متخصصها غیرفعال میمانند، که این فعالسازی تُنُک به صرفهجویی محاسباتی و حافظه منجر میشود. این ایده اولینبار در اوایل دهه ۱۹۹۰ مطرح شد؛ در پژوهشی در سال ۱۹۹۱ با عنوان Adaptive Mixture of Local Experts نشان داده شد که با آموزش چند شبکه عصبی مجزا به عنوان متخصص و یک شبکه دروازه برای اختصاص ورودیها، میتوان دقت هدف را در نیمی از سیکلهای آموزشی یک شبکه معمولی به دست آورد.
در سالهای اخیر با رشد ابعاد مدلهای زبانی بزرگ (LLMها)، رویکرد MoE دوباره مورد توجه قرار گرفته است. مفهوم کلی همان است که در ابتدای دهه ۹۰ مطرح شد: مدل عظیم را به اجزای کوچکتری تفکیک کنید که هر یک در الگوی خاصی متخصص میشوند و یک مکانیزم دروازهای ورودی را به مناسبترین متخصص هدایت میکند. اولین تحقق مدرن این ایده در مقیاس بزرگ توسط شازیر و همکاران (۲۰۱۷) ارائه شد. آنها لایه MoE تنکی را با هزاران متخصص شبکه عصبی معرفی کردند و نشان دادند که میتوان ظرفیت مدل را به طور قابل توجهی افزایش داد، بیآنکه هزینه محاسباتی به شکل متناسب رشد کند. به این ترتیب، MoE به عنوان شکلی از «محاسبات شرطی» و ensemble پویا، نویدبخش دستیابی به مدلهای بسیار بزرگ با کارایی بالاست.
- مدلهای MoE جدید
در یکی دو سال اخیر، موج جدیدی از مدلهای زبانی بزرگ – چه متنباز و چه تجاری – از معماری MoE برای دستیابی به ظرفیت بالا همراه با کارایی بهتر استفاده کردهاند. در این بخش به دو نمونهی شاخص از این مدلها و معماری آنها میپردازیم:
DeepSeekMoE (2024) یک معماری پیشرفته که توانسته است مدلهای عظیم را با هزینهی پایینتر آموزش دهد. مدلهای سری DeepSeek از جمله DeepSeek-R1/V3 با بهکارگیری MoE توانستند به ابعاد بیسابقهای برسند؛ به طور مثال DeepSeek-V3 حدود 671 میلیارد پارامتر دارد اما تنها ~37 میلیارد پارامتر را برای هر توکن فعال میکند. این نسبت (حدود ۵٪ پارامترهای فعال) در مقایسه با مدلهای متراکم بسیار چشمگیر است. نتیجه آن است که DeepSeek-R1 با چنین حجمی توانست در سال 2025 عنوان قویترین مدل متنباز را کسب کند و عملاً به مدت چهار ماه در رتبهی نخست مدلهای متنباز قرار گیرد. دستاورد دیگر DeepSeek، طراحی مشترک سختافزار-نرمافزار برای کاهش هزینهی آموزش بود؛ گزارشها نشان میدهد DeepSeek-V3 تنها با 2048 پردازنده گرافیکی Nvidia H800 آموزش داده شد که در مقایسه با خوشههای عظیم دهها هزار واحدی شرکتهای بزرگ، یک موفقیت مهم محسوب میشود. همچنین معماری DeepSeekMoE با معرفی مفاهیمی مانند مکانیزم مسیریابی تطبیقی، تلاش کرده بهرهوری MoE را به حداکثر برساند.
Qwen-3 (2025) جدیدترین خانواده مدلهای بزرگ علیبابا که به صورت متنباز منتشر شده و در برخی نسخهها از معماری MoE بهره میبرد. مدل Qwen3-235B-A22B یک نمونهی شاخص از این خانواده است که ۲۳۵ میلیارد پارامتر در کل دارد اما تنها ۲۲ میلیارد پارامتر را در هر لحظه فعال میکند. این نامگذاری (A22B به معنای Active 22B) نشان میدهد چه مقدار از پارامترها بهصورت تنک به ازای هر توکن استفاده میشوند. وجه تمایز مهم Qwen3 پشتیبانی از حالت «استدلال» قابل روشن/خاموش است که برای انجام زنجیرههای استدلال پیچیده بهکار میرود. مدلهای MoE این خانواده در آزمونهای کدنویسی، ریاضیات و زبانهای مختلف عملکردی همتراز یا بهتر از قویترین مدلهای متنباز رقیب (مانند DeepSeek-R1 و گوگل Gemini) داشتهاند.
- FrankenMoEsترکیب متخصصها از مدلهای آماده
یکی از رویکردهای کمتر شناخته شده در عرصهی MoE، بهرهگیری از مدلهای از پیشآموزشدیده به عنوان متخصصهای یک Mixture-of-Experts جدید است که به این دسته از مدلها به صورت غیررسمی FrankenMoE (ترکیبی از کلمه Frankenstien + MoE) یا MoE-merge نیز گفته میشود. در FrankenMoE بهجای آنکه متخصصها و دروازه را از صفر و بهصورت همزمان آموزش دهیم (که در MoEهای اصیل انجام میشود)، چند مدل آماده و پیشآموزششدهی موجود را انتخاب میکنیم و با روشی مناسب آنها را در قالب یک مدل واحد با معماری MoE ادغام میکنیم. سپس یک لایهی دروازه برای ترکیب خروجی این متخصصها طراحی یا آموزش داده میشود. به بیان دیگر، FrankenMoE نوعی ترکیب مدلهای زبانی است که در آن دانش موجود در مدلهای مختلف حفظ شده و تنها یک سازوکار انتخاب متخصص پس از امر واقع به آنها افزوده میشود. مزیت اصلی FrankenMoE آن است که میتوان از تواناییهای مدلهای مختلف بهره برد بیآنکه نیازی به آموزش یک مدل عظیم از ابتدا باشد.
