دانلود پایان نامه درباره بازاریابی مستقیم و مدل رگرسیون خطی

در حالت کلی، درختان تصمیم ابتدا رشد یافته و سپس بر اساس یک الگوریتم پیچیدگی هزینه که برآورد ریسک را با توجه به تعداد گرههای پایانی انجام میدهد، هرس میشود. این روش نیز اجازه میدهد تا درخت تصمیم رشد کرده و سپس بر اساس معیارهای پیچیدهتر هرس شود، و یک اعتبارسنجی متقابل بهینه منجر به درختان کوچکتر خواهد شد. افزایش تعداد گرههای پایانی عموما ریسک را برای دادههای موجود (آموزشی) کاهش میدهد، اما ریسک واقعی ممکن است با توسعه مدل به دادههای تست، افزایش یابد. در بدترین حالت، برای هر رکورد در مجموعه آموزشی یک گره پایانی جداگانه تولید خواهد شد. در این حالت، برآورد ریسک برابر با 0% است، چرا که هر رکورد در گره خاص خود میافتد، اما در مقابل ریسک طبقهبندی اشتباه برای دادههای نهان (تست) قطعا بزرگتر از 0 خواهد بود. معیار پیچیدگی هزینه تلاشی برای جبران این مسئله است.
برای آموزش یک مدل درخت C&R، نیاز به یک یا چند فیلد ورودی و دقیقا یک فیلد خروجی است. تمامی فیلدهای پیشبینی کننده و هدف میتوانند بازهای یا دستهای باشند. مدلهای درخت C&R در حضور مشکلاتی از قبیل دادههای از دست رفته و فیلدهای بسیار، کاملا قدرتمند عمل میکند. معمولا برای آموزش نیاز به زمان طولانی ندارند. علاوه بر این، درک این مدلها نسبت به برخی دیگر، آسانتر بوده، و قواعد بهدست آمده از آنها تفسیر بسیار سادهای دارند ]46[.
4-3-4-2- الگوریتم CHAID:
CHAID نوعی از تکنیک درخت تصمیم بر اساس تست اهمیت تنظیم شده است. این تکنیک در سال 1980 توسط گوردن کاس و در آفریقای جنوبی توسعه داده شد. الگوریتم CHAID به منظور پیشبینی ( در حالت مشابه برای تحلیل رگرسیون، که در این حالت CHAID در اصل با عنوان XAID شناخته می شود)، طبقهبندی و همچنین برای تشخیص تعامل بین متغیرها استفاده میشود. در عمل الگوریتم CHAID اغلب در زمینه بازاریابی مستقیم برای انتخاب گروههای مشتریان و پیشبینی نحوه پاسخ آنها تحت تاثیر برخی عوامل به کار میرود، اگر چه کاربردهای اولیه آن در زمینه تحقیقات پزشکی و روانشناسی بوده است. همانند درختهای تصمیم دیگر، مزیت عمده CHAID خروجی بسیار بصری آن است که به آسانی قابل تفسیر و توجیح است ]48[.
الگوریتم CHAID یک روش طبقهبندی آماری برای ساخت درختهای تصمیم با استفاده از مجذور مربعات به منظور شناسایی بهترین تجزیه است. CHAID ابتدا رابطه متقاطع بین هر یک از متغیرهای پیشبینی کننده و متغیر هدف و اهمیت بالقوه هر کدام را با توجه به متغیر هدف و با استفاده از آزمون استقلال مجذور مربع، بررسی میکند. اگر روابط آماری موجود معنیدار بیش از یکی باشد، CHAID مهمترین پیشبینی کننده ( با کوچکترین مقدار p) را انتخاب میکند. اگر یک پیشبینی کننده بیش از دو دسته داشته باشد، مقایسه شده و دستههایی که تفاوتی در نتیجه نداشته باشند با هم ادغام خواهند شد. فرآیند ادغام دستهها زمانی متوقف خواهد شد که تمام دستههای باقیمانده در سطح آزمون مشخصی با یکدیگر تفاوت داشته باشند. برای پیشبینی کنندههای مجموعهای، هر کدام از دستهها با هم ادغام میشوند و برای یک مجموعه ترتیبی، صرفا دستههای پیوسته میتوانند با هم ادغام شوند.
چاید فراگیر یک حالت تغییریافته از الگوریتم چاید است که حالتهای تجزیه ممکن را برای هر پیشبینی کننده بصورت دقیقتر انجام میدهد، اما مدت زمان محاسبهی آن طولانیتر است.
برخلاف الگوریتم درخت C&R، CHAID میتواند درختان غیر دودویی نیز تولید کند، به این معنی که برخی از تجزیهها بیش از دو شاخه دارند. این ویژگی منجر به ایجاد درخت گستردهتر نسبت به روشهای رشد دودویی خواهد شد. CHAID با هر نوع از پیشبینی کنندهها کار میکند و متغیرهای فراوانی و وزندار را میپذیرد. متغیرهای هدف و پیشبینی کننده میتوانند بازهای یا دستهای باشند. متغیرهای ترتیبی، باید به شکل عددی و نه رشتهای ذخیره شده باشند. مقادیر گمشده را با انتساب همهی آنها به یک دسته تکی معتبر، مهار میکند ]46[.
4-3-4-3- الگوریتم رگرسیون خطی:
مدل رگرسیون خطی بهترین برازش معادله خطی را برای پیشبینی فیلد خروجی تخمین میزند. معادلهی رگرسیون نشاندهنده یک خط راست است که مجذور اختلاف بین مقادیر خروجی واقعی و پیشبینی شده را به حداقل میرساند. این روش یک تکنیک آماری بسیار معمول برای خلاصهسازی دادهها و انجام پیشبینی است.
در مدل رگرسیون، فقط فیلدهای عددی استفاده میشود. مدلهای رگرسیون بسیار سریع آموزش میبینند، نسبتا ساده هستند و با یک فرمول ریاضی قابل تفسیر، تولید پیشبینی میکند. از آنجایی که مدل رگرسیون یک روش آماری تثبیت شده است، خواص این مدل به خوبی درک شده است ]46[.
4-3-4-4- الگوریتم شبکهی عصبی:
شبکههای عصبی، مدلهای سادهای از عملکرد دستگاه عصبی هستند. شبکههای عصبی که گاهی به آن ادراکی چند لایه نیز گفته میشود، مدل ساده شدهای از چگونگی پردازش اطلاعات توسط مغز انسان است]45[. عنصر اصلی شبکه عصبی نورونها هستند. یک ابزار ساده مجازی که ورودیهای زیادی را میپذیرد، آنها را جمع میزند، یک تابع تبدیل (معمولا غیرخطی) را بکار میبرد و نتیجه را برای یک مدل پیشگو یا ورودی نورونهای دیگر، تولید میکند. یک شبکه عصبی ساختاری از شمار زیادی نورونهای مشابه است که به شکل منظم به هم متصل شدهاند. شبکههای عصبی استفاده شده در این جا از نوع شبکههای عصبی ارسال رو به جلو هستند. نورونها در این شبکه در لایهها آرایش یافتهاند. معمولا یک لایه برای نورونهای ورودی (لایه ورودی)، یک یا چند لایه از واحدهای پردازش داخلی (لایههای پنهان) و یک لایه برای نورونهای خروجی (لایه خروجی) وجود دارد. هر لایه به شکل کامل با لایههای قبل و بعد خود متصل شده است. برای نمونه در یک شبکه با یک لایه ورودی، یک لایه پنهان و یک لایه خروجی، هر نورون در لایه ورودی به هر نورون لایه پنهان، و هر نورون در لایه پنهان به هر نورون در لایه خروجی متصل است. پیوندهای بین نورونها، مقادیر وزنی وابسته به خودشان را دارند، که قدرت تاثیرگذاری هر نورون را بر دیگر نورونها مشخص میکند. جریان اطلاعات از لایه ورودی به سمت لایه(ها)ی پردازشی و به خروجی، پیشبینی را تولید میکند. با تنظیم مقادیر وزنی پیوندها، هنگام یادگیری به منظور انطباق پیشبینیها با مقدار هدف، شبکه برای تولید پیشبینیهای بهتر و بهتر میآموزد. هیچ نوع محدودیتی برای نوع خصیصهها وجود ندارد. گرههای شبکه عصبی میتوانند ورودی و خروجیهایی از نوع عددی، نمادین و … را مهار کنند. معمولا پیشبینی شبکههای عصبی حداقل به خوبی روشهای دیگر و گاهی بسیار بهتر است. همچنین برای استفاده از آن به دانش ریاضی و آماری بسیار کمی نیاز است ]46[.
4-3-4-5- الگوریتم کوهونن:
شبکههای کوهونن نوعی از شبکههای عصبی به منظور انجام عمل خوشهبندی هستند و به آنها نقشه خود سازمانده نیز گفته میشود. هنگامی که اطلاعی درباره تعداد گروههای مورد نیاز وجود ندارد، این نوع شبکه مجموعه داده را به گروههای مجزا خوشهبندی میکند. رکوردها به گونهای گروهبندی میشوند که رکوردهای متعلق به یک گروه یا خوشه شبیه به یکدیگر، و رکوردهای متعلق به گروههای مختلف ناهمسان خواهند بود.
در این شبکه، واحدهای اصلی نورونها هستند و به دو لایه سازماندهی شدهاند: لایه ورودی و لایه خروجی ( که این لایه نقشه خروجی نیز نامیده میشود). تمامی نورونهای ورودی به تمام نورونهای خروجی متصل بوده، و این اتصالات دارای وزنهای مرتبط به خود هستند. طی فرآیند آموزش، هر واحد برای “برد” هر رکورد، با واحدهای دیگر رقابت میکند. نقشه خروجی یک شبکه دو بعدی از نورونها بدون هیچ اتصالی بین واحدها است.
شکل زیر ساختار یک شبکه کوهونن را نشان میدهد:
شکل 4-1- ساختار شبکه کوهونن
دادههای ورودی به لایه ورودی ارائه شده، و مقادیر به لایه خروجی انتشار مییابند. نورون خروجی با قویترین پاسخ به عنوان برنده و پاسخ برای ورودی مورد نظر خواهد بود.
در ابتدا، همهی وزنها تصادفی هستند. هنگامی که یک واحد، برنده رکوردی میشود، وزن خود را برای مطابقت بهتر با الگوی مقادیر پیشبینی با رکورد، تنظیم میکند. تمام رکوردهای ورودی ارائه شده و وزنها متناسبا بهروز میشوند. این فرآیند بارها و بارها تکرار میشود تا زمانیکه تغییرات بسیار کوچک باشند. هنگامی که شبکه بهطور کامل آموزش دید، رکوردهای مشابه بایستی در نقشه خروجی نزدیک به هم ظاهر شوند، در حالیکه رکوردهای بسیار متفاوت دور از هم ظاهر خواهند شد.
برخلاف اکثر روشهای یادگیری در کلمنتاین، شبکههای کوهونن از فیلد هدف استفاده نمیکنند. این نوع یادگیری، بدون فیلد هدف، یادگیری بدون نظارت نامیده میشود. به جای تلاش برای پیشبینی نتیجه، شبکههای کوهونن سعی در کشف الگوهای موجود در مجموعه فیلدهای ورودی دارند. معمولا، یک شبکه کوهونن با تعدادی واحد که بیانگر بسیاری از مشاهدات هستند (واحدهای قوی)، و چندین واحد که در اصل با هیچ یک از مشاهدات مطابقت ندارند (واحدهای ضعیف) پایان میپذیرد. واحدهای قوی نشاندهندهی مراکز خوشهها خواهند بود.
در خوشهبندی به روش کوهونن نیازی به دانستن تعداد گروههای مورد نیاز نیست. شبکه کوهونن با تعداد زیادی از واحدها شروع، و با پیشرفت فرآیند آموزش، این واحدها در خوشههای ذاتی موجود در دادهها جذب میشوند. با بررسی تعداد مشاهدات بهدست آمده توسط هر واحد در مدل، میتوان واحدهای قوی را شناسایی نمود، که در واقع تعداد خوشههای مناسب نیز مشخص میشود ]46[.
این نوشته در علمی ارسال شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.