ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۱۸

Regression By Discritization

۳۰

بنابراین تنها دستهای از الگوریتمها که قابلیت اعمال به مسائل رگرسیون را داشتند، استفاده شده و در جدول (۵-۲) مشاهده می‌شوند. از آنجا که الگوریتم رگرسیون رندوم فارست در Weka پیادهسازی نشده، الگوریتم بگینگ به جای آن مورد مقایسه قرار گرفت چرا که میدانیم الگوریتم رندوم فارست یک حالت عمومی‌تر از الگوریتم بگینگ هست. در واقع در الگوریتم رندوم فارست علاوه بر اینکه همانند الگوریتم بگینگ مجموعه آموزشی کاندید برای مدل‌سازی را بطور رندوم از مجموعه آموزشی اولیه انتخاب میکند،از بین خصیصهها نیز بطور رندوم مجموعهای را انتخاب و بر اساس آنها آموزش مدلهای موجود را انجام میدهد. بنابراین انتخاب و استفاده از بگینگ به جای رندوم فارست، انتخاب مناسبی است.
علاوه بر این، در جدول (۵-۲) میزان خطای میانگین RMSE حاصل از اعمال این الگوریتمها در مورد پیشبینی نرخ ترافیکی مسیرها آمده است. شایان ذکر است که این مقادیر، حاصل اعمال الگوریتم‌ها به روی داده‌ی اعتبارسنجی می‌باشد. در ردیف اول این جدول نیز، نتایج مرتبط با اعمال الگوریتم رندوم فارست درمحیط برنامه نویسی MATLAB آورده شده است.
همانطور که پیش‌تر بیان شده، مقادیر جدول (۲-۵)، میانگین خطا بر روی ۲۰ مسیر مورد بررسی است. بطور کلی، هر چند بعضی از الگوریتم‌ها، خطای کمتری بر روی بعضی از مسیرها داشتند، اما بطور میانگین، الگوریتم بگینگ از دیگر روشها، خطای میانگین کمتری داشت که در جدول (۲-۵) میبینیم.
در نهایت این مطلب در جدول (۵-۳) خلاصه شده است. همانطور که از جدول ( ۵-۳ ) مشخص است، الگوریتم رندوم فارست از الگوریتم بگینگ که بطور میانگین، بهترین نتایج را در مقایسه با همه‌ی الگوریتم‌های رگرسیون موجود در Weka داشت، بهتر عمل کرد. با تکیه بر این نتایج، می‌توان از مناسب بودن روش Random Forest بر روی داده‌های این پایان نامه، اطمینان حاصل کرد.
جدول ۵-.۲ مقایسه میانگین خطای RMSE بر روی ۲۰ مسیر، حاصل از اعمال الگوریتم بگینگ و رندوم فارست.

این مطلب را هم بخوانید :
تأثیر پذیرش و رضایت بر تبلیغات دهان به دهان در بانکداری اینترنتی (مورد ...

برای دانلود متن کامل این پایان نامه به سایت  fumi.ir  مراجعه نمایید.

Mean RMSE Algorithm
۲۳٫۸۸ Bagging
۲۳٫۱۹ Random Forest

تنظیمات اعمال شده در پیاده سازی الگوریتم (تنظیم پارامترها)

تمامی آنالیزهای بررسی شده در راستای پیاده‌سازی تکنیک پیشنهادی و همچنین آنالیزهای مربوط به بررسی توزیع پایگاه داده، با زبان برنامه‌نویسیMatlab انجام گرفته‌است. از آنجایی که الگوریتم رندوم فارست بطور مستقیم در این زبان برنامه نویسی پیاده سازی نشده است، با انجام تنظیماتی در پارامتر تابع TreeBagger، می‌توان الگوریتم رندوم فارست را فراخوانی و استفاده کرد. این تابع الگوریتم بگینگ را بر مبنای درختان تصمیم‌گیری را می‌سازد. همانطور که پیش‌تر بیان شد، هدف این تکنیک پیش‌بینی نرخ ترافیکی و در واقع انجا رگرسیون است. بنابراین، لازم است تا پارامتر ‘Method’ به ‘Regression’ تنظیم شود.
از جمله پارامترهای تاثیرگذار در کارایی الگوریتم رندوم فارست که در تکنیک پیشنهادی، لحاظ شده‌اند، می‌توان به ۳ پارامتر ‘Ntrees’ ، ‘Minleaf’ و‘Nvar To Sample’ اشاره کرد. ‘Ntrees’ نشان‌دهنده‌ی تعداد درختان موجود در رندوم فارست بعنوان کلاسه‌بندهای پایه است که با افزایش آن میزان خطای الگوریتم کاهش مییابد. هر چند در این الگوریتم مشاهده شد که بعد از مقدار Ntrees=60 ، میزان خطا ثابت خواهد ماند و افزایش تعداد درختان فقط منجر به بالارفتن هزینه‌ی محاسبات می‌شود. بنابراین تعداد درختان در آزمایشات مختلف، ۶۰ در نظر گرفته شده است تا بار محاسباتی اضافه به مسئله تحمیل نشود. ‘Minleaf’، در واقع مینیمم تعداد مشاهدات در هر برگ درخت است. مقادیر مختلفی برای این پارامتر اعمال شد، هر چند بهترین کارایی مربوط به Minleaf=5 بدست آمد که برابر با مقدار پیش فرض این پارامتر است. پارامتر ‘NvarToSample’، معادل با تعداد متغیرهای انتخاب شده بطور رندوم برای هر سطح درخت تصمیم‌گیری است. با تنظیم این پارامتر به مقداری غیر از ‘all’، الگوریتم رندوم فارست صدا زده میشود. در واقع این پارامتر، تفاوت میان الگوریتم بگینگ و رندوم فارست محسوب می‌شود، چرا که در الگوریتم بگینگ، در هربار انتخاب مجموعه‌ی آموزشی، همه‌ی خصیصه‌ها در نظر گرفته می‌شوند. حال آنکه تنها تعدادی از خصیصه‌ها انتخاب می‌شوند. مقادیر پیشنهادی برای این پارامتر در فصل قبل آورده شد که در اینجا یک سوم تعداد کل متغیرها (مطابق با پیش فرض) بهترین کارایی را نتیجه داد.

این مطلب را هم بخوانید :
اولویت بندی استراتژی های پیاده سازی زنجیره تامین چابک با استفاده از تصمیم گیری چند معیاره ...

ارزیابی سایز گردآمدگی بر روی داده‌ی اعتبارسنجی[۱۷۴]

همان طور که پیش تر توضیح داده شد، داده‌های نرخ ترافیکی مسیرها در این پایگاه داده، در سطح یک-دقیقه ارائه شده‌اند، هرچند ارائه‌ی داده در سطح دقیقه منجر به رفتارهای نوساناتی بسیار شدیدی می‌شود که اطلاعات مفیدی را در اختیار نخواهند گذاشت. به بیانی دیگر، بدیهی است که رفتار جریان‌های ترافیکی در طی چند دقیقه‌ی متوالی، تغییر بخصوصی نخواهند داشت. بر همین اساس، در دیگر تحقیقات نیز پارامترهای ترافیکی را در بازه‌های زمانی طولانی‌تری در نظر می‌گیرند. بنابراین، در اینجا نیز لازم است یک مرحله گردآمدگی روی داده‌ی اولیه انجام می‌شود. در این راستا، تعیین سایز گردآمدگی باید نَه بقدری بزرگ باشد که منجر به از دست رفتن اطلاعات مفید میشود و نه به اندازه‌ای کوچک باشد که منجر به تولید اطلاعات تکراری و افزایش بُعد شود.
از آنجا قرار است از هر پنجره ۳۰-دقیقه‌ای، یک نمونه( یک بردار ویژگی) استخراج شود، سایز گردآمدگی میتواند مقادیر ۳، ۵، ۶ ،۱۰، ۱۵و ۳۰ ( مقسوم ۳۰) باشند که به ترتیب منجر به تولید بردارهای ویژگی با اندازههای ۲۰۰، ۱۲۰، ۱۰۰، ۶۰، ۴۰و ۲۰ مقداری میشوند [۱۸]. بنابراین سایز بردار ویژگی وابسته به سایز گردآمدگی است. به منظور درک بیشتر توضیحات گفته شده در خصوص اعمال سایزهای مختلف گردآمدگی، در شکل (۵-۱) مراحل استخراج ویژگی برای سایز گردآمدگی ۱۵=s که منجر به ساخت بردار ویژگی ۴۰-مقداری می‌شود، به صورت نمادین آورده شده است.