- پیشآموزش (Pretraining)
پیشآموزش مرحله اولیه آموزش یک مدل زبانی بزرگ است که بهصورت خودنظارتی بر روی انبوهی از دادههای متنی انجام میشود. در این مرحله مدل با استفاده از پیکره بسیار بزرگی از متنهای بدون برچسب آموزش میبیند و میآموزد توزیع احتمالاتی زبان را تقریب زند. این بدین معنی است که مدل یاد میگیرد احتمال وقوع توکنهای بعدی را در یک دنباله متنی بر اساس توکن های قبلی پیشبینی کند. بهدلیل عدم نیاز به دادههای برچسبخورده، میتوان از حجم عظیمی از متنهای موجود (کتابها، وبسایتها و…) برای پیشآموزش بهره برد که فرآیند را بسیار مقیاسپذیر و کمهزینهتر میسازد. اساس ریاضی پیشآموزش مدل زبانی بر بیشینهسازی درستنمایی است. مدل یک توزیع احتمالاتی شرطی p روی توالی توکن ها تعریف میکند؛ بهطور خاص در یک مدل زبانی خودبازگشتی این توزیع بهصورت حاصلضرب احتمال توکن بعدی در توالی، مشروط به تمام کلمات قبلی بیان میشود. اگر یک جمله آموزشی شامل توکن های w1, w2, … , wn باشد، هدف یادگیری، بیشینهسازی p است.

معادل این هدف، کمینهکردن تابع هزینه آنتروپی متقاطع یا جمع منفی لگاریتم احتمال کلمات واقعی پس از هر تاریخچه است. برای نمونه، تابع زیان در این مرحله معمولاً بهشکل زیر تعریف میشود:

که لگاریتم احتمال پیشبینی مدل برای کلمه صحیح در موقعیت t ام است. مدل با الگوریتم های مبتنی بر گرادیان کاهشی (مثلاً به کمک بهینهساز Adam) این تابع زیان را کمینه میکند تا احتمال کلمات صحیح در دادههای آموزشی بیشینه شود. بهطور خلاصه، در پیشآموزش مدل زبانی با مشاهده حجم بزرگی از متن، روابط آماری و ساختاری زبان را یاد میگیرد و بهتدریج توانایی تولید متن روان و منسجم را کسب میکند. عملکرد مدل در این مرحله معمولاً با معیار سرگشتگی سنجیده میشود که برابر لگاریتم آنتروپی روی مجموعه آزمون است.

سرگشتگی پایینتر نشاندهنده ی توانایی بیشتر مدل در پیشبینی کلمات آینده و در نتیجه مدل زبانی قویتر است. لازم به ذکر است که پیشآموزی بهدلیل مقیاس عظیم داده و پارامترها، بسیار پُرهزینه و زمانبر است و بخش عمده محاسبات را به خود اختصاص میدهد؛ به عنوان مثال، گزارش شده که مرحله همراستاسازی (که در ادامه میآید) کمتر از ۲٪ محاسبات و دادههای مورد نیاز پیشآموزش GPT-3 را مصرف کرده است.
- تنظیم دقیق نظارتشده
پس از اتمام پیشآموزش و کسب دانش زبانی عمومی، مدل به مرحله تنظیم دقیق نظارتشده وارد میشود تا برای وظایف خاص یا دستورالعملهای کاربر تطبیق یابد. در این مرحله، برخلاف پیشآموزش که دادهها بدون برچسب و بهصورت خودنظارتی بودند، از دادههای برچسبدار استفاده میشود؛ به این صورت که برای هر ورودی (مثلاً یک پرسش یا دستور) یک خروجی مطلوب (پاسخ صحیح یا انجام وظیفه موردنظر) فراهم شده است. مجموعهداده SFT معمولاً شامل زوجهای ورودی-خروجی است که توسط انسان یا به کمک مدل های زبانی بزرگ قوی تر تهیه شدهاند. که به این حالت تنظیم دقیق دستوری گفته میشود. برای مثال، ورودی مدل یک پرسش به زبان طبیعی باشد، خروجی میتواند پاسخ درست به آن پرسش باشد. در این مرحله مدلِ از پیشآموخته آموزش می بیند که چگونه به این ورودیها پاسخهای مناسبی تولید کند. هدف تنظیم دقیق نظارتشده، تخصصی کردن مدل در انجام وظایف هدف یا تبعیت از دستورالعملهاست. این کار با ادامهی آموزش مدل بر روی دادههای صورت میگیرد. معماری مدل در این مرحله همان معماری پیشآموخته است و وزنهای مدل با استفاده از گرادیان کاهشی روی داده جدید بروز میشوند. اما بهدلیل اندازه نسبتاً کوچک مجموعهداده نظارتشده در مقایسه با دادههای پیشآموزش، انتخاب تنظیمات بهینه برای جلوگیری از بیشبرازش بسیار اهمیت دارد. به عنوان مثال، پژوهشها نشان دادهاند که بهکارگیری نرخ یادگیری کوچکتر در این مرحله میتواند به حفظ دانش عمومی مدل و جلوگیری از تخریب آن کمک کند. نرخ یادگیری پایین باعث میشود تغییرات وزن مدل به شکل تدریجی و ملایم باشد و مدل دانستههای مرحله پیشآموزش را فراموش نکند. تابع زیان در تنظیم دقیق نظارتشده بسته به نوع وظیفه میتواند مشابه مرحله پیشآموزش یا متفاوت باشد. در بسیاری از کاربردها (خصوصاً زمانی که خروجی مدل یک دنباله متنی است)، همچنان از آنتروپی متقاطع به عنوان تابع هزینه بهره گرفته میشود تا مدل توزیع خروجی مطلوب را یاد بگیرد. به بیان دیگر، مدل خودبازگشتی آموزش میبیند که هنگام دریافت ورودی x(مثلاً پرسش)، خروجی y مربوطه را به طور کلمهبهکلمه تولید کند و برای هر کلمهی صحیح احتمال بالایی اختصاص دهد.
- همراستاسازی
در مرحله همراستاسازی، مدل جهت هماهنگ شدن با اهداف، ترجیحات و ارزشهای انسانی مورد تنظیم نهایی قرار میگیرد. اگرچه مدل پس از SFT قادر به تبعیت بهتر از دستورالعملهاست، اما هنوز ممکن است خروجیهایی ناسازگار با نیت کاربر یا ملاحظات اخلاقی تولید کند. برای مثال، مدلهای بزرگ پیشآموخته ممکن است اطلاعات نادرست، محتوای مخرب یا پاسخهای نامناسب ارائه دهند که نشان میدهد کاملاً با مقاصد انسان همسو نشدهاند. به همین دلیل، همراستاسازی به عنوان مرحله سوم، با بهرهگیری از بازخورد انسانی تلاش میکند مدل را به سمتی هدایت کند که خروجیهای آن با ارزشها و ترجیحات انسانی همسو باشد و از تولید محتوای مضر یا گمراهکننده پرهیز کند. مرسومترین روش همراستاسازی در مدلهای زبانی بزرگ، آموزش تقویتی با بازخورد انسانی است. در RLHF، مسئله به صورت یک فرآیند تصمیمگیری تقویتی در نظر گرفته میشود: هر وضعیت همان پرامپت (ورودی کاربر) و هر اقدام همان پاسخ مدل به آن پرامپت است. ابتدا لازم است یک مدل پاداش آموزش داده شود تا بازخورد کیفی انسان را به یک سیگنال عددی تبدیل کند. برای تهیه داده آموزش مدل پاداش، معمولاً انسانها به عنوان ارزیاب، خروجیهای مختلف مدل (یا مدلهای مختلف) را در پاسخ به یک ورودی مقایسه کرده و رتبهبندی میکنند. به عنوان نمونه، برای یک پرسش کاربر چند پاسخ مختلف تولید میشود و انسانها آنها را از نظر ترجیح (مفیدبودن، صحت، لحن مناسب و غیره) مرتب میکنند. از این رتبهبندیهای جفتی یا چندتایی یک مجموعه داده از مقایسهها بهدست میآید که از طریق الگوریتمهایی مانند امتیازدهی الو یا مدل Bradley–Terry به نمرات اسکالر تبدیل میشود. مدل پاداش طوری آموزش میبیند که با گرفتن یک جفت ورودی-خروجی (x,y) یک مقدار اسکالر R(x,y) تولید کند که نشاندهنده میزان مطلوبیت آن پاسخ y از دید انسانهاست. به این ترتیب مدل پاداش میتواند سلیقه انسانی را شبیهسازی کند و برای پاسخهای جدید نیز میزان رضایت فرضی انسان را پیشبینی نماید. پس از دراختیارداشتن مدل پاداش R، مدل زبان (که اکنون نقش policy یا سیاست در RL را بازی میکند و از مرحله SFT بهدست آمده است) با استفاده از یک الگوریتم یادگیری تقویتی بهبود داده میشود.

در رویکردهای جدید، از الگوریتمهای پیشرفته نظیر بهینهسازی خطمشی نزدیکجو یا Proximal Policy Optimization (PPO) برای این منظور استفاده میشود. ایده اصلی این است که مدل (سیاست) را طوری بروزرسانی کنیم که پاداش انتظاری دریافتی از مدل پاداش بیشینه شود. در عمل، الگوریتم به این صورت عمل میکند که: ابتدا مدل یک پاسخ y را برای یک ورودی x تولید میکند، سپس سیگنال پاداش r=R(x,y) توسط مدل پاداش محاسبه میشود و نهایتاً گرادیان نسبت به پارامترهای محاسبه میشود تا سیاست در جهت افزایش آن پاداش بروزرسانی گردد.

تصویر 1- نمایش مراحل اجرای یک همراستاسازی
تابع هدف آموزش RLHF معمولاً شامل دو بخش است: بخش اول امید ریاضی پاداش مدل پاداش است (که باید بیشینه شود) و بخش دوم یک ترم جریمه (منفی) برای جلوگیری از فاصله گرفتن بیش از حد مدل از رفتار اولیه خود است.
![]()
این ترم جریمه معمولاً به صورت واگرایی KL بین توزیع پاسخ مدل فعلی و مدل نظارتشده اولیه sft تعریف میشود و با ضریبی مانند در تابع هدف لحاظ میگردد. وجود این جریمهی KL به مدل اجازه میدهد ضمن یادگیری ترجیحات انسانی، بیش از حد از دانش و ویژگیهای مفید آموختهشده در مراحل قبل فاصله نگیرد و از تکگویی یا تولید پاسخهای بسیار محدود جلوگیری شود. در واقع، یک اهرم تنظیم است که موازنهای میان همراستا شدن با بازخورد انسانی و حفظ تنوع و درستی زبانی مدل اصلی ایجاد میکند. به عنوان نمونه، اگر خیلی کوچک باشد، مدل ممکن است برای کسب پاداش بیشتر دچار تغییرات شدید (و بالقوه مخرب) شود، و اگر خیلی بزرگ باشد مدل تقریباً خروجیهای مرحله SFT را تکرار میکند و از یادگیری بازمیماند. الگوریتم PPO مشخصاً برای پایدارسازی یادگیری تقویتی در این مرحله نقش کلیدی دارد. PPO هر بروزرسانی سیاست را محدود میکند تا تغییر احتمال اقدامات (خروجیهای مدل) در مقایسه با سیاست قدیم از یک بازه مشخص [1 – , 1 + ]تجاوز نکند.
به بیان ساده، PPO با معرفی یک نسبت احتمال

در تابع هدف و محدود کردن این نسبت در بازه 1 هنگام محاسبه گرادیان، مانع جهشهای بزرگ در پارامترهای مدل میشود.
![]()
این کار از بیثباتی و تولید خروجیهای عجیب و غریب در اثر بهینهسازی صرف پاداش جلوگیری میکند. به طور سنتی، در PPO از تکنیکهای گرادیان-صعود (به جای گرادیاننزول) استفاده میشود زیرا میخواهیم پاداش را بیشینه کنیم نه خطا را کمینه. همچنین معمولاً از برآوردگر ارزش بهصورت همزمان استفاده میشود تا مزیت هر اقدام محاسبه شده و واریانس گرادیان کاهش یابد. تمامی این ترفندهای بهینهسازی (نظیر کلیپ کردن PPO، جریمهی KL و غیره) به این منظور است که مدل نهایی همراستاشده، رفتاری پایدار و معقول داشته باشد و صرفاً برای کسب امتیاز پاداش دچار رفتارهای نامطلوب نشود. نتیجه مرحله همراستاسازی، مدلی است که به طور قابل توجهی مطیعتر، مفیدتر و کمخطرتر است. ارزیابیهای انسانی نشان دادهاند که یک مدل همراستاشده (مانند InstructGPT با ۱.۳ میلیارد پارامتر) حتی پاسخهایی بهتر و ترجیحپذیرتر از یک مدل پایه بسیار بزرگتر (GPT-3 با ۱۷۵ میلیارد پارامتر) تولید میکند.
