علمی : ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۱۳

(۴-۶)

بدین ترتیب، اگر همین روند را بر روی دادههای هر ساعت دنبال کنیم و از هر ساعت یک نمونه آموزشی استخراج کنیم، از کل مجموع داده های آموزشی که ۱۰۰ سایکل ۱۰-ساعته بود، ۱۰۰۰ نمونه حاصل خواهد شد. بدین طریق، ماتریس خصیصه‌ی X یک ماتریس ۶۰×۱۰۰۰ و ماتریس هدف Y یک ماتریس ۲۰×۱۰۰۰ خواهد بود که هر ستونِ آن معادل با نرخ ترافیک در خیابان معادل آن ستون است.
مرحله‌ی پیش پردازش (شامل کاهش بُعد و استخراج خصیصه) نیز با همین روند، بر روی دادههای خام آزمایشی نیز اعمال شده است. در واقع از هر پنجره ۳۰-دقیقه‌ای، ۳ بردار (رکورد) حاصل و یک نمونه‌ی آزمایشی ۶۰ =۲۰×۳ بدست میآید. بدین ترتیب، ۱۰۰۰ پنجره ۳۰ دقیقهای آزمایشی، منجر به تشکیل ۱۰۰۰ نمونه‌ی آزمایشی خواهند شد.

مرحله تقسیم بندی به context های مختلف

در مراحل ابتدایی به بررسی رفتار جریان‌های ترافیکی قبل از انجام پیش پردازشها و نمونه برداری از داده‌ها، پرداختیم و روند تغییرات ما را به این نتیجه رساند که در مدلسازیها، از تأثیر تغییرات این روندها استفاده کنیم. آنچه واضح است این است که مدل‌های نهایی روی مشاهدات (نمونههای) حاصل از مرحله پیشپردازش آموزش داده خواهند شد، بنابراین اعمال نتایج بررسی رفتارها، عملاً در این فاز باید تزریق شود که در این راستا، مرحله گروهبندی مشاهدات اعمال خواهد شد. طبیعتاً اساس گروهبندی بر مبنای شباهت رفتاری جریان‌ها، صورت می‌گیرد.
آنچه در ابتدای گروه بندی لازم به تعیین است، مشخص کردن تعداد گروهها میباشد. بطور معمول در دیگر تحقیقات یک فاز کلاستربندی بصورت کامل انجام می‌شود که منجر به تولید تعداد زیادی گروه می‌شود و معمولاً در هر گروه مشاهدات ۱-ساعتی یا نیم ساعتی مشابه قرار می‌گیرند. اعمال مشابه این روند و قرار دادن مشاهدات یک ساعتی در گروه‌ها در خصوص داده مورد استفاده، در نهایت منجر به تولید ۱۰ گروه می‌شد. هرچند آزمایشات نشان داد، که تنها متمایز کردن مشاهدات مربوط به ساعات اوج پیک از دیگر مشاهدات کافیست و نتایج بهتری با در نظرگرفتن تنها ۲ context، بدست خواهد آمد. در واقع همانطور که در شکل می‌بینیم، تقریباً در همه خیابانها، پیک اول در ساعتهای یکسانی وجود دارد. هرچند رفتارهای مشابه دیگری نیز در ساعتهای بعدی مشاهده میشود، اما در خیابانهای مختلف در ساعات مختلف رخ میدهد. بنابراین به این نتیجه رسیدیم که مشاهدات مربوط به ساعات اولیه سایکلها که مربوط به پریود اوج پیک میشوند را در یک گروه و مشاهدات ۹ ساعت باقیمانده از سایکلها را در یک گروه قرار دهیم.
در مورد دادههای آموزشی، چون دادهها از اجرای ۱۰-ساعت پشت سر هم بوجود آمده اند، لذا جدا کردن ساعات اولیه سایکلها به سادگی صورت میگیرد. اما از آنجا که دادههای آزمایشی مستقل هستند و ترتیب آنها و اینکه متعلق به کدام ساعت از اجرای سایکل‌ها هستند، مشخص نیست، لازم است تا معیار شباهت مناسبی تعیین شود تا قادر به متمایز کردن و مشخص کردن تعلق مشاهدات بهcontext های مختلف باشد. همان طور که میدانیم تعیین معیار سنجش فاصله مناسب به (۱) ماهیت داده‌ی و (۲) مسئلهی مورد بررسی، بستگی دارد که برای تعیین این موضوع، آزمایشاتی صورت گرفت و قابلیت معیارهای سنجش فاصله مختلف، بر روی جریانهای ترافیکی بررسی شد.
نتایج حاصل حاکی از آن بود که، بر خلاف آنکه از جمله خصوصیات مطلوب یک معیار سنجش فاصله در اکثریت کاربردها، حساس نبودن آن معیار نسبت به مسئله شیفت[۱۶۹] است، اما در این مسئله‌ی بخصوص، (۱) معیار مناسب باید نسبت به مسئله شیفت حساس باشد. در واقع از آنجا که هدف این مرحله تمیز دادن مشاهدات مربوط به پریود پیک و غیرپیک است و تفاوت این مشاهدات نرخ ترافیکی متفاوت می‌باشد، پس اگر معیار مورد استفاده به مسئله شیفت حساسیت نداشته باشد، قادر به متمایز کردن مشاهدات این دو context نمیباشد. بعنوان مثال، در نمودار الف از شکل (۴-۷) ،پترن‌های (مشاهدات) ۱ و ۲ به نظر یکسان میرسند، هرچند معیار مورد استفاده نباید آنها را در یک context قرار دهد.

این مطلب را هم بخوانید :
ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۶

برای دانلود متن کامل این پایان نامه به سایت  pipaf.ir  مراجعه نمایید.

(الف) (ب)
شکل ۴-۷٫ نمودار الزامات لازمِ یک معیار شباهت مناسب برای این مسئله. طبق (الف) معیار باید حساس به شیفت و طبق (ب) معیار نباید تطابق جزئی انجام دهد تا بتواند پترهای ۱و۲و۳و۴ را در context های مجزا قرار دهد.

از طرف دیگر (۲) معیار اعمالی نباید تطابق جزئی[۱۷۰] انجام دهد. دلیل اصلی آن، این است که محدوده‌ی تغییرات نرخ ترافیک هر خیابان، رنجِ مشخصی دارد که حتی در زمان اوج ترافیک با ضریب معینی افزایش می‌یابد. برای وضوح بیشتر نمودار (ب) در شکل (۴-۷)، دو پترن را نشان میدهد که نباید توسط معیار اعمالی در یک contex یکسان قرار گیرد.
از آنجا که زمان مربوط به دادههای آزمایشی مشخص نیست ، به منظور مقایسه‌ی معیارهای سنجش فاصله مختلف ، آزمایشاتی روی دادههای آموزشی که زمان رخداد آنها در طول سایکل مشخص است، انجام شد و تعیین شد که هر کدام از معیارها تا چه حد میتوانند زمان مربوط به رخداد مشاهدات را درست تعیین کنند و مشاهدات را در context درست دستهبندی کنند. از میان آنها، دو معیار اقلیدسی[۱۷۱] و همچنین Kullback–Leibler divergence، بهتر از دیگر معیارها عمل کردند که نتایج مربوطه را دفصل بعد خواهیم دید.
همانطور که می‌دانیم، معیار اقلیدسی، فاصله‌ی دو مشاهده‌ی و با طول را بصورت فرمول (۴-۷) محاسبه میکنند:

(۴-۷)