مسیر یادگیری هوش مصنوعی با بوف AI

تعریف و تاریخچه معماری MoE

معماری (Mixture of Experts) یا به اختصار MoE، رویکردی برای افزایش ظرفیت مدل‌های یادگیری عمیق بدون افزایش متناسب هزینه محاسباتی است. در این رویکرد به جای یک مدل یکپارچه (dense) که همه پارامترهای آن برای هر ورودی فعال می‌شوند، مجموعه‌ای از متخصص‌ها (زیر-شبکه‌های عصبی تخصصی) وجود دارد که هر کدام بر بخشی از الگوهای داده مسلط می‌شوند. یک شبکه مسیر‌یاب یا دروازه به عنوان هماهنگ‌کننده عمل کرده و تصمیم می‌گیرد هر قطعه از ورودی به کدام متخصص (یا چند متخصص برتر) ارسال شود. بدین ترتیب برای هر ورودی تنها کسر کوچکی از پارامترهای کل مدل فعال شده و سایر متخصص‌ها غیرفعال می‌مانند، که این فعال‌سازی تُنُک به صرفه‌جویی محاسباتی و حافظه منجر می‌شود. این ایده اولین‌بار در اوایل دهه ۱۹۹۰ مطرح شد؛ در پژوهشی در سال ۱۹۹۱ با عنوان Adaptive Mixture of Local Experts نشان داده شد که با آموزش چند شبکه عصبی مجزا به عنوان متخصص و یک شبکه دروازه برای اختصاص ورودی‌ها، می‌توان دقت هدف را در نیمی از سیکل‌های آموزشی یک شبکه معمولی به دست آورد.

در سال‌های اخیر با رشد ابعاد مدل‌های زبانی بزرگ (LLMها)، رویکرد MoE دوباره مورد توجه قرار گرفته است. مفهوم کلی همان است که در ابتدای دهه ۹۰ مطرح شد: مدل عظیم را به اجزای کوچک‌تری تفکیک کنید که هر یک در الگوی خاصی متخصص می‌شوند و یک مکانیزم دروازه‌ای ورودی را به مناسب‌ترین متخصص هدایت می‌کند. اولین تحقق مدرن این ایده در مقیاس بزرگ توسط شازیر و همکاران (۲۰۱۷) ارائه شد. آن‌ها لایه‌ MoE تنکی را با هزاران متخصص‌ شبکه‌ عصبی معرفی کردند و نشان دادند که می‌توان ظرفیت مدل را به طور قابل توجهی افزایش داد، بی‌آن‌که هزینه محاسباتی به شکل متناسب رشد کند. به این ترتیب، MoE به عنوان شکلی از «محاسبات شرطی» و ensemble پویا، نویدبخش دستیابی به مدل‌های بسیار بزرگ با کارایی بالاست.

مدل‌های MoE جدید

در یکی دو سال اخیر، موج جدیدی از مدل‌های زبانی بزرگ – چه متن‌باز و چه تجاری – از معماری MoE برای دستیابی به ظرفیت بالا همراه با کارایی بهتر استفاده کرده‌اند. در این بخش به دو نمونه‌ی شاخص از این مدل‌ها و معماری آن‌ها می‌پردازیم:

DeepSeekMoE (2024) یک معماری پیشرفته که توانسته است مدل‌های عظیم را با هزینه‌ی پایین‌تر آموزش دهد. مدل‌های سری DeepSeek از جمله DeepSeek-R1/V3 با به‌کارگیری MoE توانستند به ابعاد بی‌سابقه‌ای برسند؛ به طور مثال DeepSeek-V3 حدود 671 میلیارد پارامتر دارد اما تنها ~37 میلیارد پارامتر را برای هر توکن فعال می‌کند. این نسبت (حدود ۵٪ پارامترهای فعال) در مقایسه با مدل‌های متراکم بسیار چشمگیر است. نتیجه آن است که DeepSeek-R1 با چنین حجمی توانست در سال 2025 عنوان قوی‌ترین مدل متن‌باز را کسب کند و عملاً به مدت چهار ماه در رتبه‌ی نخست مدل‌های متن‌باز قرار گیرد. دستاورد دیگر DeepSeek، طراحی مشترک سخت‌افزار-نرم‌افزار برای کاهش هزینه‌ی آموزش بود؛ گزارش‌ها نشان می‌دهد DeepSeek-V3 تنها با 2048 پردازنده گرافیکی Nvidia H800 آموزش داده شد که در مقایسه با خوشه‌های عظیم ده‌ها هزار واحدی شرکت‌های بزرگ، یک موفقیت مهم محسوب می‌شود. همچنین معماری DeepSeekMoE با معرفی مفاهیمی مانند مکانیزم مسیر‌یابی تطبیقی، تلاش کرده بهره‌وری MoE را به حداکثر برساند.

Qwen-3 (2025) جدیدترین خانواده مدل‌های بزرگ علی‌بابا که به صورت متن‌باز منتشر شده و در برخی نسخه‌ها از معماری MoE بهره می‌برد. مدل Qwen3-235B-A22B یک نمونه‌ی شاخص از این خانواده است که ۲۳۵ میلیارد پارامتر در کل دارد اما تنها ۲۲ میلیارد پارامتر را در هر لحظه فعال می‌کند. این نام‌گذاری (A22B به معنای Active 22B) نشان می‌دهد چه مقدار از پارامترها به‌صورت تنک به ازای هر توکن استفاده می‌شوند. وجه تمایز مهم Qwen3 پشتیبانی از حالت «استدلال» قابل روشن/خاموش است که برای انجام زنجیره‌های استدلال پیچیده به‌کار می‌رود. مدل‌های MoE این خانواده در آزمون‌های کدنویسی، ریاضیات و زبان‌های مختلف عملکردی هم‌تراز یا بهتر از قوی‌ترین مدل‌های متن‌باز رقیب (مانند DeepSeek-R1 و گوگل Gemini) داشته‌اند.

FrankenMoEsترکیب متخصص‌ها از مدل‌های آماده

یکی از رویکردهای کمتر شناخته شده در عرصه‌ی MoE، بهره‌گیری از مدل‌های از پیش‌آموزش‌دیده به عنوان متخصص‌های یک Mixture-of-Experts جدید است که به این دسته از مدل‌ها به صورت غیررسمی FrankenMoE (ترکیبی از کلمه Frankenstien + MoE) یا MoE-merge نیز گفته می‌شود. در FrankenMoE به‌جای آنکه متخصص‌ها و دروازه را از صفر و به‌صورت همزمان آموزش دهیم (که در MoEهای اصیل انجام می‌شود)، چند مدل آماده و پیش‌آموزش‌شده‌ی موجود را انتخاب می‌کنیم و با روشی مناسب آن‌ها را در قالب یک مدل واحد با معماری MoE ادغام می‌کنیم. سپس یک لایه‌ی دروازه برای ترکیب خروجی این متخصص‌ها طراحی یا آموزش داده می‌شود. به بیان دیگر، FrankenMoE نوعی ترکیب مدل‌های زبانی است که در آن دانش موجود در مدل‌های مختلف حفظ شده و تنها یک سازوکار انتخاب متخصص پس از امر واقع به آن‌ها افزوده می‌شود. مزیت اصلی FrankenMoE آن است که می‌توان از توانایی‌های مدل‌های مختلف بهره برد بی‌آنکه نیازی به آموزش یک مدل عظیم از ابتدا باشد.

پاسخی بگذاریدانصراف از پاسخ