ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۱۴

که در این فرمول i نشان دهنده iاَمین مقدار از بردارهای مشاهدات ترافیکی است.
در دیگر تحقیقات [۴۵] و [۴۶] نیز همین نتیجه گیری تأیید شد که برای تعیین شباهت مشاهدات، معیارهای دیگر بهبود قابل ملاحظهای در مقایسه با معیار اقلیدسی ایجاد نمی‌کنند. در واقع، همانطور که توضیح دادیم، دلیل اصلی این است که معیار اقلیدسی از جمله معیارهایی است که نسبت به هرگونه تغییرات در مقیاس[۱۷۲] و شیفتِ مسئله، حساس هست. اما این خصوصیت از جمله ویژگیهای مطلوب یک معیار کاربردی در زمینه‌ی جداسازی مشاهدات ترافیکی بحساب می‌آید. در کنار معیار اقلیدسی، معیار مناسب دیگر Kullback–Leibler divergence هست که تفاوت بین دو توزیع اجتماعی Q,P را بصورت فرمول (۴-۸) محاسبه می‌کند:

دانلود متن کامل این پایان نامه در سایت abisho.ir

(۴-۸)

که i نشان دهنده iاُمین مقدار از بردار مشاهدات است. در راستای اعمال این معیار به مسئله‌ی مورد نظر، مشاهدات ترافیکی باید به برداری از احتمال نرخ ترافیک در خیابانها، تبدیل می‌شدند. در نهایت و با توجه به نتایج فصل بعد، می‌توان گفت که از این دو معیار می‌توان در کنار هم، در جهت گروه بندی و تشخیص context مربوط به مشاهدات ترافیکی استفاده کرد. با اعمال معیار فاصله اقلیدسی، دوcontext حاصل بصورت نمودارهای شکل (۴-۸) بدست می‌آیند.

(الف) (ب)
شکل ۴-۸٫ جریانهای ترافیکی مشاهده شده‌ی۲۰ مسیر، تقسیم شده به دو context (الف) جریانهای مربوط به پریودهای اوج و (ب)پریودهای غیر اوج. غالب مشاهدات مربوط به contextِ پیک، رفتار بسیار مشابهی دارند. رنگ‌های مختلف در شکل بیانگر مشاهدات مختلف است.

نمودار الف در شکل (۴-۸) مربوط به گروهی است که مشاهدات مربوط به پریود اوج ترافیکی(peack context) را در بر می گیرد و نمودار ب در شکل (۴-۸)، مشاهدات مربوط به پریودهای غیرپیک non-pank context را شامل میشود. در این نمودارها، هرکدام از توزیع‌های رنگی، نمایانگر یک مشاهده -شامل نرخ ترافیکی ۲۰ مسیر- است. همان طور که در نمودار الف از شکل (۴-۸) میبینید، مشاهداتِ مربوط به گروه پیک، رفتار بسیار مشابهی دارند، بطوریکه تقریباً منحنی ۱۰۰ مشاهده‌ی موجود در این گروه، روی هم قرار گرفته اند. این موضوع بیانگر این است که در پریود زمانی اوج ترافیک، نرخ ترافیکی مربوط به هرکدام از خیابانها رنج محدود و مشخصی دارد. هرچند رفتارهای متفاوتی در میان مشاهدات مربوط به گروه غیرپیک در نمودار ب شکل (۴-۸) دیده میشود. بطور مثال، خیابان ۳ در هر دو گروه را در نظر بگیرید، در گروه پیک، رنجِ نرخ ترافیک مربوط به مشاهدات مختلف ، بسیار محدود (۲۴-۱۹) است. هرچند، در دسته‌ی غیرپیک، همین خیابان نرخِ ترافیکی مختلفی را تجربه میکند که در رنج محدودی ومعینی قرار نمیگیرد. این رفتار در مورد دیگر خیابان‌ها نیز صدق می‌کند. برهمین اساس و با توجه به تفاوتهای قابل ملاحظه‌ی این دو گروه، پیشنهاد می‌شود که مشاهدات مربوط به پریودهای زمان اوج پیک از دیگر مشاهدات متمایز و تفکیک شده و بصورت جداگانه آموزش داده شوند. با این کار مشاهدات شبیه هم در یک گروه قرار گرفته و سپس با هم آموزش داده میشوند. علاوه بر این، از تأثیر مشاهدات غیر مرتبط با آن پریود زمانی، بر روی پروسه‌ی یادگیری کاسته میشود.
بدین ترتیب، با مشخص شدن گروه‌ها، مدل آموزشی هنگام یادگیری، از context مجموعه‌ی آموزشی خود باخبر بوده و در نتیجه مدلسازی با دقت بالاتری صورت خواهد گرفت.

این مطلب را هم بخوانید :
ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۹

مرحله یادگیری با Context-Aware Random Forest

در این مرحله، ابتدا گروههای متمایز شده از دادههای آموزشی، بطور جداگانه با استفاده از الگوریتم RF آموزش داده میشوند و دو مدل RF2 , RF1 که متعلق به پریودهای زمانی پیک و غیرپیک هست، ساخته میشوند.
پس از آن، با آمدن هر نمونه‌ی آزمایشی، شباهت آن با مشاهدات موجود در گروههای دادههای آموزشی سنجیده شده و به هرکدام که نزدیکتر بود، با مدل ساخته شده روی آن گروه، پیشبینی میشود. بدین ترتیب پیشبینی در دو سطح صورت میگیرد: (۱) در سطح اول مشخص میشود که جریان ترافیکی متعلق به کدام context است و در سطح بعد (۲) نرخ ترافیک مربوط به دقایق آینده پیشبینی میشود. بطور واضحتر، اگر قرار باشد نرخ ترافیکی مربوط به نمونهای که زمان رخداد آن در پریودهای پیک بود، پیشبینی شود، بهتر است از مدلی استفاده شود که روی نمونههایی که در همان پریود زمانی در دیگر روزها ثبت شده، آموزش داده شده‌اند. همچنین اگر زمان رخداد نمونه‌ی آزمایشی مربوط به پریودهای غیرپیک باشد، بهتر است مدل آموزشی مورد استفاده، مشاهدات ترافیکی که متعلق به پریودهای اوج پیک هستند را شامل نشود. با اعمال این مراحل میتوان رفتار و روند جریانهای ترافیکی را در ساخت مدل آموزشی، تأثیر داد.
همان طور که در فصل ۲ توضیح داده شد، رندوم فارست از جمله الگوریتمهای داده کاری محسوب میشود که امروزه گرایش زیادی به سمت آن دیده میشود. کاربرد این متد اغلب در خصوص دادههای با سایز بزرگ، ماننده داده‌های مربوط به بازار سهام، بازار بورس و به خصوص داده های حجیم ترافیکی است. این الگوریتم که نوعی بگینگ به حساب میآید، از درختهای تصمیمگیری CART بعنوان کلاسیفایرهای پایه استفاده میکند و پیشبینی نهایی را بر مبنای میانگینگیری ( برای رگرسیون) و نظرسنجی (برای کلاسه بندی) انجام میدهد. با توجه به تحقیقات انجام شده، این الگوریتم قدرت بالایی در خصوص رگرسیون و کلاسه بندی دارد.
در این پایاننامه نیز این الگوریتم با هدف انجام رگرسیون روی دادههای ترافیکی، به کار گرفته شده است. همان طور که میدانیم این الگوریتم با دریافت بردار ویژگی بعنوان ورودی، یک مقدار را بعنوان خروجی تولید میکند. از آنجا که در این داده قرار است با دریافت نرخ ترافیکی مربوط به نیم ساعت اول، جمع تعداد ماشین های عبوری در بازه زمانی ۵۰-۴۱ از نیم ساعت بعدی، مربوط به ۲۰ مسیر پیشبینی شود. بنابراین باید ۲۰ مدل مجزا (رندوم فارست) متناظر با ۲۰ مسیر آموزش داده شوند. علاوه بر این، چون آموزش در دو Context جداگانه صورت میگیرد، پس برای هر Context ، ۲۰ مدل RF و در مجموع ۴۰ مدل RF آموزش داده خواهند شد. نتایج بدست آمده که در فصل بعد آورده شده، گویای کارآیی و موثر بودن این روش میباشد.

این مطلب را هم بخوانید :
سامانه پژوهشی - بررسی اغراض جملات خبری در خطبه‌های ۵۰ تا ۱۰۰ نهج‌البلاغه- قسمت ۵