که میانگین مجذور خطای عمومی برای هر پیشبینی کننده عددیh(x) بصورت زیر محاسبه میشود.
برای دانلود متن کامل این پایان نامه به سایت pipaf.ir مراجعه نمایید. |
(۲-۹) |
مزایا و کاربردهای رندوم فارست
مباحث مطرح شده در این بخش و دیگر تحقیقات میتوان نتیجه گرفت که الگوریتم رندوم فارست از جمله تکنیکهای قوی در زمینهی کلاسهبندی و رگرسیون به شمار میآید. از دیگر فواید حاصل از بکارگیری این الگوریتم میتوان به موارد زیر نیز اشاره کرد:
امکان مشاهده داده[۸۹] در مورد دادههای با بُعد بالا[۹۰]
تشخیص ناهنجاری[۹۱]، دورافتادگی[۹۲] و خطا
امکان آنالیز مجموعه دادههای با سایز کوچک (بدلیل امکان انجام محاسبات OOB)
تشخیص ویژگیهای با اهمیت تر
حل مسئله مقادیر از دست رفته[۹۳]
ارائه متد جدید چرخشی کلاسترینگ[۹۴] با استفاده از معیارهای سنجش فاصله بین رکوردها، مبتنی بر درختها
آموزش سریع در مورد دادههای با سایز بالا به دلیل عدم نیاز به مسئلهی انتخاب ویژگی
مقاوم بودن در مورد مسئله بیش برازشی و عمومیت به دادههای جدید
سهولت استفاده به دلیل نیاز محدود به تنظیم پارامترها
و نهایتاً ارائه مدل با کارآیی و دقت بسیار بالا
نتیجه گیری
همان طور نشان داده شد، الگوریتم رندوم فارست یک ابزار قدرتمند در خصوص مسئله پیشبینی به حساب میآید. نتایجی که در دیگر تحقیقات بر روی مجموعههای دادههای مختلف انجام شده نیز بیانگر کارایی قابل مقایسهی این الگوریتم با دیگر تکنیکهای قوی در این زمینه از جمله بوستینگ و دیگر انواع بگینگ، میباشد. همچنین در فصل پیشینهی تحقیق خواهیم دید که در تحقیقات اخیر و در حوزههای مختلف، گرایش قابل توجهی به سمت استفاده از این الگوریتم میباشد. در این پایان نامه نیز به بررسی کارآیی و استفاده از الگوریتم رندوم فارست در خصوص دادههای ترافیکی پرداختهایم.
فصل سوم
پیشینهی تحقیق
مقدمه
در این فصل، ابتدا به بیان تعریف مسئلهی پیشبینی کوتاه مدت ترافیک یا به عبارتی پیشبینی سریهای زمانی میپردازیم. در واقع از آنجا که دادههای ترافیکی معمولاً در غالب بازههای زمانی یکسان جمع آوری میشوند، عموماً بعنوان سریهای زمانی در نظر گرفته میشوند. پس از ارائهی مفاهیم و نشانه گذاریها، مطالعهی روشهای مرسوم برای حل این مسئله را در سه گروه و تحت سه بخش بعدی بررسی میکنیم. از میان این متدها، با توجه به پرکاربرد بودن روشهای مبتنی بر مدلهای شبکه عصبی مصنوعی و همچنین روشهای مبتنی بر آنالیزهای سریهای زمانی، ابتدا به بررسی پیشینهی مطالعات انجام شده در این دو گروه میپردازیم. در انتها نیز به مطالعهی روشهای مبتنی بر متدهای دادهکاوی پرداخته میشود که گرایش قابل ملاحظهای از تحقیقات اخیر به سمت استفاده از آنها میباشد.
تعریف مسئله
همانطور که پیشتر بیان شد، مسئلهی پیشبینی ترافیک از جمله نیازهای اساسی مراکز کنترل ترافیک در راستای ایجاد تعادل ترافیکی میباشد. غالباً این مسئله میتواند به دو گروه کلی پیشبینی طولانیمدت[۹۵] و کوتاهمدت تقسیمبندی شود. در مقابل الگوریتمهای پیشبینی طولانیمدت که تخمین ترافیک در زمانهای آینده دور را شامل میشوند، الگوریتمهای پیشبینی کوتاهمدت، به روی تخمین ترافیک در چند دقیقه تا ساعات آینده متمرکز میشوند که در این پایاننامه نیز بتمرکز اصلی بر روی بررسی این نوع الگوریتمها میباشد.
از طرف دیگر، دادههای جمع آوری شده از وضعیت ترافیکی، داده حجیمی هستند که غالباً در بازههای زمانی یکسانی ثبت شدهاند، از اینرو، این دادهها معمولاً بصورت سریهای زمانی در نظر گرفته میشوند. در واقع، دادههای سری زمانی شامل دنبالههایی از مقادیرند که در طی اندازهگیری های متناوب در زمانهای مختلف بدست آمده اند. معمولاً این مقادیر در بازههای زمانی مساوی (ساعتی، روزانه، هفتگی و…) ثبت شدهاند. از این رو میتوان آنها را در غالب بردارهای وابسته به زمان در نظر گرفت و بصورت زیر نمایش داد.
(۳-۱) |