ارائه‌ چارچوبی در راستای بهبود پیش‌بینی وضعیت ترافیک- قسمت ۴

Algorithm Random Forest (k)
Input : Sequence of N examples <( x,y),….., ( xN, y)> with labels
i€ Y={ 1,…,L }
Distribution D over the N example
Integer K specifying number of iterations
p = # of variables
Do For t=1,2,.., K(# trees)
Choose bootstrap sample Di from D to construct tree Ti
Select m input variables at random from p
(m<<p)
To determine the decision tree at a node of the tree
Calculate the best split based on these m variables in the training set
End
Choose the class that receives the highest total vote as the final classification.

شکل ۲-۳٫ معماری کلی مربوط به الگوریتم رندوم فارست. در طی رشدK عدد درخت، توسعه‌ی هر درخت روی نمونه‌های رندوم انتخاب شده Di صورت گرفته و از میان p خصیصه‌ی نمونه‌ها، m خصیصه بطور رندوم انتخاب می‌شوند.

در قسمت بعدی نیز، در راستای توصیف دقت رندوم فارست ، نگاهی کلی به مسائل همگرایی[۸۳] رندوم فارست و خطای عمومی این الگوریتم که توسط Breiman بیان شده‌اند، خواهیم داشت[۲۱].

همگرایی رندوم فارستبا در اختیار داشتن کلاسه‌بندهای  و با مجموعه آموزشی رندوم انتخاب شده از توزیع بردار رندوم x,y تابع margin را بصورت زیر تعریف می‌شود:

(۲-۴)

که در آن I(0) تابع نشانگر است. بطور مفهومی، فرمول margin محاسبه می‌کند که میانگین رأی‌های درست به چه میزان از رأی‌های اشتباه یعنی j≠y فاصله دارد. به بیانی دقیق‌تر، هر چقدر میزان margin بیشتر باشد، میزان اطمینان[۸۴] در کلاسه بندی بیشتر است. [۲۱]

این مطلب را هم بخوانید :
تغییر الگوریتم بهینه سازی فاخته جهت استفاده در محیط های پویا- قسمت ۵۴

خطای عمومی رندوم فارستهمچنین با افزایش تعداد درختان، این الگوریتم از قانون Strong Law of large Numbers و ساختار درختی تبعیت می‌کند که تئوری آن بشرح زیر است:

تئوری ۲-۱: با افزایش تعداد درختان، بطور قطع برای غالب دنباله‌های  خطای عمومی[۸۵] (PE*) همگراست به:

برای دانلود متن کامل پایان نامه به سایت  fotka.ir  مراجعه نمایید.