مواجهه با underfit در شبکه‌های عصبی

یک شبکه عصبی underfit است وقتی که هنوز نتوانسته به خوبی داده‌ها را یاد بگیرید. این پدیده به چند علت ممکن است رخ داده باشد. در این مقاله به این علت‌ها و نحوه مواجهه به آن‌ها می‌پردازیم.

فهرست مطالب

1. underfit چیست
2. راه تشخیص underfit
3. برطرف کردن underfit بودن شبکه
4. جمع‌بندی

1. underfit چیست

در آموزش شبکه‌های عصبی ما به دنبال دو چیز هستیم: ۱) بهینه‌سازی و ۲) عمومیت. منظور از بهینه‌سازی این است که شبکه عصبی باید بتواند داده های train را به خوبی یاد بگیرد و پارامتر‌های مورد نیاز خودش را از آن‌ها استخراج کند. با کمک معیار‌های ارزیابی (مانند loss، accuracy و fscore) ما می‌توانیم ببینیم که آیا شبکه عصبی توانسته داده‌های یادگیری را یاد بگیرد یا خیر. نکته دیگر، عمومیت است. در عمومیت ما به دنبال این هستیم که شبکه عصبی بتواند نتایج خوبی بر روی داده‌هایی داشته باشد که تا به حال ندیده است (داده‌های آزمون).

ممکن است که شبکه عصبی نتواند یادگیری خوبی داشته باشد. یعنی نتایج ارزیابی بر روی داده‌های یادگیری (train) پایین باشد. در این حالت، نتایج بر روی داده های آزمون هم پایین است. به این حالت underfit شدن می‌گوییم.

از طرف دیگر، ممکن است که شبکه یادگیری خوبی بر روی داده های یادگیری داشته باشد، اما عمومیت نداشته باشد. به این معنا که نتایج ارزیابی بر روی داده‌های یادگیری خیلی خوب است اما همین نتایج بر روی داده‌های آزمون خوب نیست. در این می‌گوییم شبکه overfit شده است.

2. راه تشخیص underfit

برای تشخیص underfit، کافی است که نمودار loss یادگیری (train loss) و loss ارزیابی (validation loss) را بر اساس epoch رسم کنیم. به طور کلی انتظار داریم که نمودار loss یادگیری، نزولی باشد. اگر نمودار loss ارزیابی هم نزولی باشد، یعنی underfit رخ داده است. نمونه نموداری که در آن underfit رخ داده است در شکل زیر نشان داده شده است. همانطور که می‌بینیم، هر دو نمودار loss، نزولی هستند.

وجود underfit در شبکه بر اساس نمودار loss

نمودار train loss نشان دهنده بهینه‌سازی (optimization) و نمودار validation loss نشان دهنده خطای عمومیت (generalixation error) است. هرچه validation loss کمتر باشد، خطای عمومیت کمتر است و به عبارت دیگر، میزان عمومیت بیشتر است.

3. برطرف کردن underfit بودن شبکه

به طور کلی underfit بودن، به سه علت رخ می‌دهد: ۱) کم بودن تعداد ویژگی داده‌ها، ۲) یادگیری با تعداد epoch کم و ۳) کوچک بودن مدل. با توجه به این سه علت، برای برطرف کردن underfit باید این سه علت را برطرف کنیم.

3.1. برطرف کردن کم بودن تعداد ویژگی‌ها

برای برطرف کردن کم بودن ویژگی داده‌ها، باید ویژگی داده ها را افزایش بدهیم. در اکثر موارد این کار امکان پذیر نیست. اما در برخی موارد، امکان ساخت ویژگی جدید بر اساس داده‌های موجود وجود دارد. مثلا یکی از راه‌های ساخت ویژگی جدید، تقسیم دو ویژگی بر روی هم است. مثلا اگر یکی ویژگی‌های شما تعداد متغیر‌ها و ویژگی دیگر شما تعداد خط است، با تقسیم تعداد متغیر‌ها بر تعداد خط، ویژگی جدیدی ایجاد می‌شود که معنا دار هم هست. به طور کلی، این روش ها در موضوعی با نام Feature Engineering مطرح می‌شود.

3.2. برطرف کردن تعداد epoch کم

برای برطرف کردن یادگیری با epoch کم، کافی است که تعداد epoch ها را افزایش بدهیم. این‌کار را تا زمانی ادامه می‌دهیم که نمودار loss ارزیابی، نزولی باشد.

3.3. برطرف کردن کوچک بودن مدل

کوچک بودن مدل به معنای کم بودن پارامتر‌های یادگیری است. برای این‌کار شما باید پارامتر‌های یادگیری شبکه را افزایش بدهید. پارامتر‌های یادگیری در شبکه‌های عصبی، تعداد و نوع لایه‌ها و تعداد نرون در هر لایه است. بنابراین، کافی است که شما لایه‌های جدید به شبکه اضافه کنید و یا اینکه تعداد نرون‌های لایه‌های موجود را افزایش بدهید.

4. جمع‌بندی

وجود underfit اولین مشکلی است که ممکن است شما با آن برخورد کنید. هر چند برطرف کردن underfit نسبتا راحت است، اما دانستن علت آن، به درک بهتر شبکه عصبی کمک می‌کند. در این مقاله، به علت وجود این پدیدیه و نحوه مواجهه با آن پرداختیم. در مقاله بعد انشالله به نحوه مواجهه با overfit در شبکه‌های عصبی می‌پردازیم.