پژوهش – ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۵

(۲-۵)

که در آن،

(۲-۶)

و

(۲-۷)

این نتیجه در واقع نشان دهنده‌ی دلیل بیش برازش نشدن الگوریتم رندوم فارست (حتی با در برداشتن درختان زیاد) به حساب می‌آید. در واقع این رابطه نشان می‌دهد که خطای عمومی مقداری محدود و کوچکتر از صفر است و همین مسئله باعث بیش برازش نشدن الگوریتم می‌شود.

استفاده از OOB برای مشاهده خطا، قدرت [۸۶]و وابستگی[۸۷]همانطور که پیش‌تر توضیح دادیم، برای ساخت هر درخت، یک مجموعه داده‌ی آموزشی جدید از مجموعه داده‌ی اصلی انتخاب شده و با انتخاب رندوم ویژگی‌ها، یک درخت ساخته می‌شود. بدین ترتیب، استفاده از بگینگ می‌تواند در راستای پیشبینی خطای عمومی (PE*ترکیب درخت‌ها و همچنین قدرت و وابستگی آن‌ها بکار گرفته شود. فرض کنید با داشتن مجموعه آموزشی T، یک مجموعه bootstrap ، Tk داریم که کلاسه‌بندهای  روی آن ساخته شده‌اند. برای هر x,y موجود در داده آموزشی، فقط رأی‌های کلاسه بندهایی استفاده می‌شود که در آن TK شامل y نشده باشند. به این کلاسه بندها، کلاسه بند OOB گفته می‌شود. پیشبینی OOB برای خطای عمومی نیز نسبت خطای کلاسه بند OOB روی مجموعه آموزشی است. در واقع در هر مجموعه آموزشی Bootstrap، تقریبا ۳/۱ نمونه‌ها کنار گذاشته می‌شوند. بنابراین، خطای OOB بر مبنای ترکیب ۳/۱ از کلاسه بندها در ترکیب نهایی، محاسبه می‌شود. از آنجا که نسبت خطا با افزایش کلاسه بندها، کاهش می‌یابد، بنابراین خطای OOB خطای فعلی را Overestimate می‌کند. برای رسیدن به خطای OOB بدون سوگیری[۸۸]، باید در نقطه قبل از همگرایی خطای تست، آن را اجرا کرد. هرچند بر خلاف وارسی اعتبار، خطای OOB، بدون سوگیری است.

این مطلب را هم بخوانید :
ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۱۸
برای دانلود متن کامل پایان نامه به سایت azarim.ir مراجعه نمایید.

رندوم فارست برای رگرسیون

در انتها با توجه به استفاده از رگرسیون رندوم فارست در این پایان نامه، به بیان مختصری از مباحث کلی آن می‌پردازیم. همانند قبل، رگرسیون رندوم فارست از درختان مبتنی بر بردار رندوم Ө شکل می‌گیرد که درخت پیشبینی کننده  ، به جای برچسب کلاس‌ها، روی مقادیر عددی اعمال می‌شوند. در انتها مدل نهایی بر اساس میانگین گیری روی k عدد درخت  بدست می‌آید. در مورد محاسبه خطای عمومی رگرسیون رندوم فارست می‌توان به تئوری زیر اشاره کرد [۲۱].
تئوری ۲-۲ : با افزایش تعداد درختان، خطای عمومی در مورد رگرسیون نیز تحت تئوری زیر بیان شده است:

(۲-۸)