مراحل اصلی آموزش یک مدل زبانی بزرگ

  • پیش‌آموزش (Pretraining)

پیش‌آموزش مرحله اولیه آموزش یک مدل زبانی بزرگ است که به‌صورت خودنظارتی بر روی انبوهی از داده‌های متنی انجام می‌شود. در این مرحله مدل با استفاده از پیکره بسیار بزرگی از متن‌های بدون برچسب آموزش می‌بیند و می‌آموزد توزیع احتمالاتی زبان را تقریب زند. این بدین معنی است که مدل یاد می‌گیرد احتمال وقوع توکن‌های بعدی را در یک دنباله متنی بر اساس توکن های قبلی پیش‌بینی کند. به‌دلیل عدم نیاز به داده‌های برچسب‌خورده، می‌توان از حجم عظیمی از متن‌های موجود (کتاب‌ها، وب‌سایت‌ها و…) برای پیش‌آموزش بهره برد که فرآیند را بسیار مقیاس‌پذیر و کم‌هزینه‌تر می‌سازد. اساس ریاضی پیش‌آموزش مدل زبانی بر بیشینه‌سازی درست‌نمایی است. مدل یک توزیع احتمالاتی شرطی p روی توالی توکن ها تعریف می‌کند؛ به‌طور خاص در یک مدل زبانی خودبازگشتی این توزیع به‌صورت حاصل‌ضرب احتمال توکن بعدی در توالی، مشروط به تمام کلمات قبلی بیان می‌شود. اگر یک جمله آموزشی شامل توکن های w1, w2, … , wn باشد، هدف یادگیری، بیشینه‌سازی p است.

 معادل این هدف، کمینه‌کردن تابع هزینه آنتروپی متقاطع یا جمع منفی لگاریتم احتمال کلمات واقعی پس از هر تاریخچه است. برای نمونه، تابع زیان در این مرحله معمولاً به‌شکل زیر تعریف می‌شود:

  که  لگاریتم احتمال پیش‌بینی مدل برای کلمه صحیح در موقعیت t ام است. مدل با الگوریتم های مبتنی بر گرادیان کاهشی (مثلاً به کمک بهینه‌ساز Adam) این تابع زیان را کمینه می‌کند تا احتمال کلمات صحیح در داده‌های آموزشی بیشینه شود. به‌طور خلاصه، در پیش‌آموزش مدل زبانی با مشاهده حجم بزرگی از متن، روابط آماری و ساختاری زبان را یاد می‌گیرد و به‌تدریج توانایی تولید متن روان و منسجم را کسب می‌کند. عملکرد مدل در این مرحله معمولاً با معیار سرگشتگی سنجیده می‌شود که برابر لگاریتم آنتروپی روی مجموعه آزمون است.

 سرگشتگی پایین‌تر نشان‌دهنده ی توانایی بیشتر مدل در پیش‌بینی کلمات آینده و در نتیجه مدل زبانی قوی‌تر است. لازم به ذکر است که پیش‌آموزی به‌دلیل مقیاس عظیم داده و پارامترها، بسیار پُرهزینه و زمان‌بر است و بخش عمده محاسبات را به خود اختصاص می‌دهد؛ به عنوان مثال، گزارش شده که مرحله هم‌راستاسازی (که در ادامه می‌آید) کمتر از ۲٪ محاسبات و داده‌های مورد نیاز پیش‌آموزش GPT-3 را مصرف کرده است.

  • تنظیم دقیق نظارت‌شده

پس از اتمام پیش‌آموزش و کسب دانش زبانی عمومی، مدل به مرحله تنظیم دقیق نظارت‌شده وارد می‌شود تا برای وظایف خاص یا دستورالعمل‌های کاربر تطبیق یابد. در این مرحله، برخلاف پیش‌آموزش که داده‌ها بدون برچسب و به‌صورت خودنظارتی بودند، از داده‌های برچسب‌دار استفاده می‌شود؛ به این صورت که برای هر ورودی (مثلاً یک پرسش یا دستور) یک خروجی مطلوب (پاسخ صحیح یا انجام وظیفه موردنظر) فراهم شده است. مجموعه‌داده SFT معمولاً شامل زوج‌های ورودی-خروجی است که توسط انسان یا به کمک مدل های زبانی بزرگ قوی تر تهیه شده‌اند. که به این حالت تنظیم دقیق دستوری گفته می‌شود. برای مثال، ورودی مدل یک پرسش به زبان طبیعی باشد، خروجی می‌تواند پاسخ درست به آن پرسش باشد. در این مرحله مدلِ از پیش‌آموخته آموزش می بیند که چگونه به این ورودی‌ها پاسخ‌های مناسبی تولید کند. هدف تنظیم دقیق نظارت‌شده، تخصصی کردن مدل در انجام وظایف هدف یا تبعیت از دستورالعمل‌هاست. این کار با ادامه‌ی آموزش مدل بر روی داده‌های  صورت می‌گیرد. معماری مدل در این مرحله همان معماری پیش‌آموخته است و وزن‌های مدل با استفاده از گرادیان کاهشی روی داده جدید بروز می‌شوند. اما به‌دلیل اندازه نسبتاً کوچک مجموعه‌داده نظارت‌شده در مقایسه با داده‌های پیش‌آموزش، انتخاب تنظیمات بهینه برای جلوگیری از بیش‌برازش بسیار اهمیت دارد. به عنوان مثال، پژوهش‌ها نشان داده‌اند که به‌کارگیری نرخ یادگیری کوچک‌تر در این مرحله می‌تواند به حفظ دانش عمومی مدل و جلوگیری از تخریب آن کمک کند. نرخ یادگیری پایین باعث می‌شود تغییرات وزن مدل به شکل تدریجی و ملایم باشد و مدل دانسته‌های مرحله پیش‌آموزش را فراموش نکند. تابع زیان در تنظیم دقیق نظارت‌شده بسته به نوع وظیفه می‌تواند مشابه مرحله پیش‌آموزش یا متفاوت باشد. در بسیاری از کاربردها (خصوصاً زمانی که خروجی مدل یک دنباله متنی است)، همچنان از آنتروپی متقاطع به عنوان تابع هزینه بهره گرفته می‌شود تا مدل توزیع خروجی مطلوب را یاد بگیرد. به بیان دیگر، مدل خودبازگشتی آموزش می‌بیند که هنگام دریافت ورودی x(مثلاً پرسش)، خروجی y مربوطه را به طور کلمه‌به‌کلمه تولید کند و برای هر کلمه‌ی صحیح احتمال بالایی اختصاص دهد.

  • هم‌راستاسازی

در مرحله هم‌راستاسازی، مدل جهت هماهنگ شدن با اهداف، ترجیحات و ارزش‌های انسانی مورد تنظیم نهایی قرار می‌گیرد. اگرچه مدل پس از SFT قادر به تبعیت بهتر از دستورالعمل‌هاست، اما هنوز ممکن است خروجی‌هایی ناسازگار با نیت کاربر یا ملاحظات اخلاقی تولید کند. برای مثال، مدل‌های بزرگ پیش‌آموخته ممکن است اطلاعات نادرست، محتوای مخرب یا پاسخ‌های نامناسب ارائه دهند که نشان می‌دهد کاملاً با مقاصد انسان همسو نشده‌اند. به همین دلیل، هم‌راستاسازی به عنوان مرحله سوم، با بهره‌گیری از بازخورد انسانی تلاش می‌کند مدل را به سمتی هدایت کند که خروجی‌های آن با ارزش‌ها و ترجیحات انسانی هم‌سو باشد و از تولید محتوای مضر یا گمراه‌کننده پرهیز کند. مرسوم‌ترین روش هم‌راستاسازی در مدل‌های زبانی بزرگ، آموزش تقویتی با بازخورد انسانی است. در RLHF، مسئله به صورت یک فرآیند تصمیم‌گیری تقویتی در نظر گرفته می‌شود: هر وضعیت همان پرامپت (ورودی کاربر) و هر اقدام همان پاسخ مدل به آن پرامپت است. ابتدا لازم است یک مدل پاداش آموزش داده شود تا بازخورد کیفی انسان را به یک سیگنال عددی تبدیل کند. برای تهیه داده آموزش مدل پاداش، معمولاً انسان‌ها به عنوان ارزیاب، خروجی‌های مختلف مدل (یا مدل‌های مختلف) را در پاسخ به یک ورودی مقایسه کرده و رتبه‌بندی می‌کنند. به عنوان نمونه، برای یک پرسش کاربر چند پاسخ مختلف تولید می‌شود و انسان‌ها آنها را از نظر ترجیح (مفیدبودن، صحت، لحن مناسب و غیره) مرتب می‌کنند. از این رتبه‌بندی‌های جفتی یا چندتایی یک مجموعه داده از مقایسه‌ها به‌دست می‌آید که از طریق الگوریتم‌هایی مانند امتیازدهی الو یا مدل Bradley–Terry به نمرات اسکالر تبدیل می‌شود. مدل پاداش طوری آموزش می‌بیند که با گرفتن یک جفت ورودی-خروجی (x,y) یک مقدار اسکالر R(x,y) تولید کند که نشان‌دهنده میزان مطلوبیت آن پاسخ y از دید انسان‌هاست. به این ترتیب مدل پاداش می‌تواند سلیقه انسانی را شبیه‌سازی کند و برای پاسخ‌های جدید نیز میزان رضایت فرضی انسان را پیش‌بینی نماید. پس از دراختیارداشتن مدل پاداش R، مدل زبان (که اکنون نقش policy یا سیاست در RL را بازی می‌کند و از مرحله SFT به‌دست آمده است) با استفاده از یک الگوریتم یادگیری تقویتی بهبود داده می‌شود.

 در رویکردهای جدید، از الگوریتم‌های پیشرفته نظیر بهینه‌سازی خط‌مشی نزدیک‌جو یا Proximal Policy Optimization (PPO) برای این منظور استفاده می‌شود. ایده اصلی این است که مدل (سیاست) را طوری بروزرسانی کنیم که پاداش انتظاری دریافتی از مدل پاداش بیشینه شود. در عمل، الگوریتم به این صورت عمل می‌کند که: ابتدا مدل یک پاسخ y را برای یک ورودی x تولید می‌کند، سپس سیگنال پاداش r=R(x,y) توسط مدل پاداش محاسبه می‌شود و نهایتاً گرادیان نسبت به پارامترهای  محاسبه می‌شود تا سیاست در جهت افزایش آن پاداش بروزرسانی گردد.

تصویر  1- نمایش مراحل اجرای یک هم‌راستاسازی

تابع هدف آموزش RLHF معمولاً شامل دو بخش است: بخش اول امید ریاضی پاداش مدل پاداش است (که باید بیشینه شود) و بخش دوم یک ترم جریمه (منفی) برای جلوگیری از فاصله گرفتن بیش از حد مدل از رفتار اولیه خود است.

این ترم جریمه معمولاً به صورت واگرایی KL بین توزیع پاسخ مدل فعلی  و مدل نظارت‌شده اولیه sft تعریف می‌شود و با ضریبی مانند  در تابع هدف لحاظ می‌گردد. وجود این جریمه‌ی KL به مدل اجازه می‌دهد ضمن یادگیری ترجیحات انسانی، بیش از حد از دانش و ویژگی‌های مفید آموخته‌شده در مراحل قبل فاصله نگیرد و از تک‌گویی یا تولید پاسخ‌های بسیار محدود جلوگیری شود. در واقع،  یک اهرم تنظیم است که موازنه‌ای میان هم‌راستا شدن با بازخورد انسانی و حفظ تنوع و درستی زبانی مدل اصلی ایجاد می‌کند. به عنوان نمونه، اگر  خیلی کوچک باشد، مدل ممکن است برای کسب پاداش بیشتر دچار تغییرات شدید (و بالقوه مخرب) شود، و اگر خیلی بزرگ باشد مدل تقریباً خروجی‌های مرحله SFT را تکرار می‌کند و از یادگیری بازمی‌ماند. الگوریتم PPO مشخصاً برای پایدارسازی یادگیری تقویتی در این مرحله نقش کلیدی دارد. PPO هر بروزرسانی سیاست را محدود می‌کند تا تغییر احتمال اقدامات (خروجی‌های مدل) در مقایسه با سیاست قدیم از یک بازه مشخص [1 – , 1 + ]تجاوز نکند.

به بیان ساده، PPO با معرفی یک نسبت احتمال

 در تابع هدف و محدود کردن این نسبت در بازه 1 هنگام محاسبه گرادیان، مانع جهش‌های بزرگ در پارامترهای مدل می‌شود.

 این کار از بی‌ثباتی و تولید خروجی‌های عجیب و غریب در اثر بهینه‌سازی صرف پاداش جلوگیری می‌کند. به طور سنتی، در PPO از تکنیک‌های گرادیان-صعود (به جای گرادیان‌نزول) استفاده می‌شود زیرا می‌خواهیم پاداش را بیشینه کنیم نه خطا را کمینه. همچنین معمولاً از برآوردگر ارزش به‌صورت همزمان استفاده می‌شود تا مزیت هر اقدام محاسبه شده و واریانس گرادیان کاهش یابد. تمامی این ترفندهای بهینه‌سازی (نظیر کلیپ کردن PPO، جریمه‌ی KL و غیره) به این منظور است که مدل نهایی هم‌راستاشده، رفتاری پایدار و معقول داشته باشد و صرفاً برای کسب امتیاز پاداش دچار رفتارهای نامطلوب نشود. نتیجه مرحله هم‌راستاسازی، مدلی است که به طور قابل توجهی مطیع‌تر، مفیدتر و کم‌خطرتر است. ارزیابی‌های انسانی نشان داده‌اند که یک مدل هم‌راستا‌شده (مانند InstructGPT با ۱.۳ میلیارد پارامتر) حتی پاسخ‌هایی بهتر و ترجیح‌پذیرتر از یک مدل پایه بسیار بزرگ‌تر (GPT-3 با ۱۷۵ میلیارد پارامتر) تولید می‌کند.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *