ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۱۵

فصل پنجم

نتایج تجربی

مقدمه

در این فصل به بررسی کارآیی تکنیک پیشنهادی و مقایسه آن با روشهای قوی ارائه شده درحوزه‌ی پیشبینی کوتاه مدت ترافیک میپردازیم. از آنجا که پایگاه داده‌ی مورد آنالیز، برگرفته از داده‌ی مسابقه پیشبینی ترافیک ICDM (2010) میباشد، نتایج بدست آمده از اعمال این روش با نتایج دیگر شرکت کنندگان مسابقه مورد مقایسه قرار گرفته است.
در ابتدا مروری کوتاه بر پایگاه داده و چگونگی تقسیم بندی آن به قسمتهای آموزشی، آزمایشی و اعتبارسنجی میپردازیم. سپس معیار ارزیابی نتایج و همچنین مقایسه‌ی معیارهای مورد استفاده در زمینه سنجش فاصله‌ی مشاهدات را مطرح می‌کنیم. در ادامه به بررسی آنالیزهای انجام شده، که دلیل استفاده از الگوریتم RF را توجیه میکند، پرداخته و تنظیمات و پارامترهای به کار رفته در پیاده سازی الگوریتم پیشنهادی را توضیح میدهیم. در انتها تأثیر سایز گردآمدگی و همچنین انواع نمونه برداری از پایگاه داده‌ی اولیه، بر روی میزان خطا بررسی شده و کارآیی الگوریتم نهایی با توجه به بهترین تنظیمات ارزیابی خواهد شد.

پایگاه داده

همانطور که در فصل پیش توضیح داده شد، پایگاه داده‌ی مورد استفاده در این پایان نامه برگرفته از داده‌ی ارائه شده در قسمت اول مسابقه پیشبینی ترافیک ICDM (2010) میباشد. به همین جهت، داده‌ی مورد بررسی در دو بخش مجزا -داده‌ی آموزشی و داده‌ی آزمایشی- در اختیار قرار داده شده اند. از آنجا که روش پیشنهادی نهایتاً با نتایج دیگر شرکت کنندگان، مورد مقایسه قرار گرفته است. بنابراین، همین منوال در طی انجام آزمایشات، دنبال شده است.
همچنین در راستای افزایش سرعت بررسی برخی از پارامترها و تنظیم آنها به بهترین مقادیر، بعضی از آزمایشات بر روی داده‌ی اعتبارسنجی صورت گرفت. بدین ترتیب که ۵۰% اولیه‌ی داده‌ها به عنوان داده‌ی آموزشی و ۵۰% دوم بعنوان داده‌ی تست (اعتبارسنجی) مورد استفاده قرار گرفت.
داده‌ی آموزشی متشکل از ۶۰۰۰۰ رکورد (دقیقه) است، که هر رکورد آن شامل ۲۰ مقدارِ متناظر با تعداد وسایل نقلیه‌ی عبوری از ۲۰ مسیر در یک دقیقه است. این داده، حاصل اجرای ۱۰۰ سایکل ۱۰ ساعته با استفاده از شبیه ساز قدرتمند ترافیک TSF میباشد. بدین ترتیب، در نهایت یک ماتریس ۶۰۰۰۰ در ۲۰ خواهیم داشت که هر ۶۰۰ ردیف آن حاصل اجرای یک سایکل است.
داده‌ی آزمایشی نیز، در قالب پنجرههای ۶۰-دقیقهای ارائه شده‌اند که از هر پنجره، ۳۰ دقیقه اول آن در اختیار قرار داده شده و ۳۰ دقیقه دوم هر پنجره، بعنوان هدف و معیار ارزیابی در نظر گرفته شده است. بنابراین قرار است با ورود هرکدام از پنجرههای آزمایشی (بعنوان یک نمونه‌ی آزمایشی)، نرخ ترافیکی در نیم ساعت بعدی، پیشبینی شود. به بیانی دقیق تر، مجموع تعداد ماشینهای عبوری از ۲۰ مسیر در بازه‌ی زمانی دقیقه‌ی۵۰-۴۱، باید تخمین زده شود و بعنوان یک بردار هدف ۲۰ مقداری تولید شود. از آنجا که در قسمت داده‌ی آزمایشی، ۱۰۰۰ پنجره‌ی آزمایشی آورده شدهاست و هر پنجره، ۳۰ رکورد در بر دارد، نهایتاً یک ماتریس ۳۰۰۰۰ در ۲۰ بعنوان ماتریس استخراجی از داده‌ی آزمایشی خواهیم داشت.

این مطلب را هم بخوانید :
جستجوی مقالات فارسی - ارزیابی تاثیرات سفارشی سازی و محیط بازار بر موفقیت کسب و کار ...

دانلود متن کامل پایان نامه در سایت jemo.ir موجود است

معیارهای ارزیابی

در این زیر فصل، علاوه بر ارائه معیارهای ارزیابی مورد استفاده برای سنجش میزان خطا در آزمایشات انجام شده، معیارهای تعیین میزان شباهت مشاهدات ترافیکی نیز آورده شده‌اند. این معیارها در راستای اعمال سطح اول پیش‌بینی بکار گرفته شدند تا بتوانند زمان را بطور ضمنی در پیشبینی ‌ها دخیل کنند.

معیار ارزیابی خطای پیشبینی

با توجه به اینکه قرار است برای هر پنجره، یک بردار ۲۰ مقداری پیشبینی شود، سایز مقادیری که باید تخمین زده شوند، یک ماترس ۲۰ در ۱۰۰۰ است که نهایتاً یک بردار ۲۰ × ۱۰۰۰ = ۲۰۰۰۰ مقداری را تشکیل میدهد. به منظور ارزیابی دقت پیشبینی ، معیار خطای مجذور میانگین مربعات[۱۷۳](RMSE) بکار گرفته شده که بصورت فرمول (۵-۱) قابل محاسبه است.

( ۵-۱ ) RMSE =

که در آن نرخ واقعی ترافیک مربوط به iاَمین خیابان ، نرخ تخمینی ترافیک در خیابان iاَم و N سایز بردارها میباشد. همانطور که در بالا توضیح داده شد، بردار تخمینی ۲۰۰۰۰ مقداریست، یعنی N=20000 است.
علاوه بر این در دیگر آزمایشات، معیار RMSE Mean نیز استفاده شده است که در واقع میانگین خطای RMSE را با میانگین‌گیری از خطای ۲۰ مسیر، بدست میآورد و طبق فرمول (۵-۲) محاسبه میشود:

(۵-۲) Mean RMSE =

که در این فرمول نیز N1=1000 و N2=20 و نرخ واقعی ترافیک مربوط به iاَمین خیابان ، نرخ تخمینی ترافیک در خیابان iاَم میباشد و به بیانی دیگر، در ابتدا RMSE مربوط به ۱۰۰۰ مقدار تخمینی هر خیابان، محاسبه و سپس از این مقدار خطا، بین ۲۰ مسیر، میانگین گیری میشود.

این مطلب را هم بخوانید :
تغییر الگوریتم بهینه سازی فاخته جهت استفاده در محیط های پویا- قسمت ...

معیارهای سنجش فاصله بر روی مشاهدات ترافیکی

همانطور که در فصل معرفی تکنیک پیشنهادی توضیح داده شد، پیشبینی ترافیک، در دو سطح انجام میشود. در سطح اول مشخص میشود که جریان ترافیکی، مربوط به چه بازه‌ی ترافیکی است( اوج یا غیر اوج) و سپس پس از جداسازی این مشاهدات و گروه بندی آن‌ها، مدلسازی جداگانه‌ای بر روی context های مجزا انجام شده و مقادیر نهایی با استفاده از این مدلها پیشبینی میشوند. در این راستا، در مورد داده‌ی آموزشی، context ها را از طریق بررسی زمان رخداد آنها درسایکل ۱۰-ساعته، مشخص کردیم. اما از آنجا که دادههای آزمایشی بصورت پنجرههای یک ساعته و مستقل در اختیار قرار داده شده اند، زمان رخداد آنها در طی سایکل‌ها مشخص نیست که برای تعیین آن، لازم است تا با ورود یک جریان ترافیکی، فاصله آن با نمونههای موجود در دو context محاسبه شده و با توجه به نزدیکترین نمونه، context آن مشخص شود. برای مقایسه‌ی این معیارها، باید تعداد دفعاتی که معیار مورد نظر، context مربوطه را درست پیشبینی کرده، محاسبه می‌کردیم. از آنجا که زمان‌های مربوط به داده‌های آزمایشی مشخص نبود، به سراغ داده‌ی آموزشی-که زمان رخداداشان در طول سایکل مشخص بود- رفتیم. در این راستا، ابتدا مشاهدات مربوط به ۵۰% اولیه داده‌ی آموزشی گروه بندی کردیم. سپس مشاهدات ۵۰% دوم (در نظر گرفته شده بعنوان داده‌ی اعتبارسنجی) را با مقایسه با گروه‌های قسمت آموزشی و اعمال معیارهای سنجش فاصله گروهبندی کردیم.
نتایج حاصل حاکی از آن بود که معیار اقلیدسی و kullback leibler divergence، مناسبترین معیارها در این خصوصند چراکه بالاترین تعداد تشخیص درست در رابطه با ساعات رخداد در طی سایکل‌ها متعلق به این دو معیار بود. بر همین مبنا، در مورد متمایز کردن context های داده‌ی آزمایشی نیز همین معیار(اقلیدسی) استفاده شده است. شکل ۴-۷ توجیهی در خصوص مناسب بودن این معیار آورده شده بود.

بررسی مناسب بودن الگوریتم اعمالی RF در مقایسه با دیگر متدها