دانلود پایان نامه ارشد درمورد شبکه عصبی مصنوعی و بازیابی اطلاعات

از اینرو، با توجه به کاربرد گسترده‌ی مایعات یونی درفرآیند‌های شیمیایی و اهمیت دمای ذوب این ترکیبات در نوع کاربرد آن‌ها‌، در این پروژه سعی شده با استفاده از رویکرد QSPR، مدل‌هایی برای پیش‌بینی دمای ذوب این ترکیبات ارائه گردد و همچنین به منظور بررسی عوامل مؤثر بر بروز فعالیت سمی مایعات یونی در سلول‌های زنده، مسموم کنندگی سلولی این ترکیبات نیز با استفاده از رویکرد QSAR مدل‌سازی شود.
فصل دوم
تئوری
نتایج مطالعات ساختار- فعالیت/ ویژگی علاوه بر شفافسازی نحوه ارتباط بین خواص مولکول‌ها و ویژگی‌های ساختمانی آنها، به پژوهشگران در پیش‌بینی رفتار مولکول‌های جدید براساس رفتار مولکول‌های مشابه کمک می‌کند. به مجموعه ابزارها و روشهایی که به این منظور مورد استفاده قرار می‌گیرند روش‌های پارامتری گویند.  در روش‌های پارامتری سعی می‌کنند بین یک سری توصیف کننده‌های مولکولی با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیف‌کننده‌های مولکولی که به این منظور استفاده می‌شوند، مقادیر عددی می‌باشند که جنبه‌های مختلف ساختاری مولکول را به طور کمی‌نشان می‌دهند. وقتی خصوصیات ساختاری گونه‌ها و فعالیت آنها توسط اعداد و ارقام بیان می‌شود می‌توان رابطه ریاضی یا کمی، بین ساختار و فعالیت گونه ایجاد کرد. این رابطه می‌تواند برای پیشبینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد. به عبارتی دیگر در این گونه مطالعات توصیفکنندهها به عنوان متغیرهای مستقل و پارامتر بیولوژیکی یا شیمیایی مورد نظر به عنوان متغیر وابسته در نظر گرفته میشوند. در مرحله مدلسازی مدلی از متغیر وابسته بر حسب متغیرهای مستقل ساخته میشود، سپس در مرحله پیشبینی مدل ساخته شده مورد ارزیابی قرار میگیرد. مراحل کلی مدل‌سازی به روش پارامتری به شرح زیر است:
1- جمع آوری سری داده‌ها
2- وارد کردن ساختارهای مولکولی و بهینهسازی آنها
3- محاسبه توصیفکننده‌های مولکولی
4- تجزیه و تحلیل آماری توصیفکندهها و انتخاب مؤثرترین آنها
5- ایجاد مدلهای آماری
6- انتخاب بهترین مدل و ارزیابی اعتبار مدل انتخابشده
2-1) جمعآوری سری دادهها
اولین مرحله، جمعآوری و انتخاب یک سری مولکولی از منابع قابل اعتماد و در دسترس است. بایستی کمیت مورد مدل‌سازی برای ترکیبات مختلف، در شرایط عملی یکسان بدست آمده باشد تا نتیجه قابل قبولتر و مناسبتری بدست آید. در مدلهای خطی سری دادهها به دو قسمت سری کالیبراسیون و سری ارزیابی تقسیم میشوند[7] . عملیات مدل‌سازی بر روی سری کالیبراسیون که اکثر مولکولها را در بر میگیرد، انجام میشود. از سری ارزیابی برای بررسی قدرت پیشبینی و اعتبار مدل استفاده میشود. ترکیبات سری ارزیابی به نحوی انتخاب میشوند که نماینده جمعیت مولکولهای سری کالیبراسیون باشند. لازم به ذکر است که مولکولهای سری ارزیابی در هیچ یک از مراحل مدل‌سازی شرکت ندارند. در مدل سازی به روشهایی مانند شبکه عصبی مصنوعی از سری کالیبراسیون به دلیل استفاده در مرحله آموزش با عنوان سری آموزشی نام برده میشود. سری ارزیابی نیز به دو دسته به نامهای سری ارزیابی داخلی یا سری پیشبینی و سری ارزیابی خارجی تقسیم میشود. سری پیشبینی برای کنترل خطای مدلسازی و جلوگیری از ایجاد آموزش اضافی در حین ساخت مدل و سری ارزیابی، برای ارزیابی اعتبار مدل و تخمین قدرت پیشگویی آن بهکار میرود.
2-1-1) روش‌های تقسیم بندی سری داده‌ها
به طور معمول، دو روش وجود دارند که از رایج‌ترین روش‌های تقسیم بندی سری داده‌ها در مدل‌سازی QSAR به شمار می‌روند[16] :
1- روش انتخاب تصادفی: در این روش سری داده‌ها به صورت کاملا تصادفی و بدون در نظر گرفتن هیچ گونه معیار خاصی، به سری‌های آموزشی و ارزیابی تقسیم می‌گردد. عمده‌ترین نقص این روش این است که در این روش ترکیبات بدون در نظر گرفتن هیچ‌گونه ارتباطی با ساختارشان، دسته‌بندی می‌گردند. به همین دلیل احتمال بسیار زیادی وجود دارد که ترکیباتی خارج از قلمرو کاربرد مدل، در سری ارزیابی قرار گیرند[7] . بنابراین از آنجایی که این ترکیبات توسط مدل برون‌یابی می‌شوند، پیش‌بینی‌های مدل برای این ترکیبات غیر‌قابل اعتماد خواهد بود[17] .
2- روش مرتبسازیy-: در این روش سری دادهها به صورت نزولی یا صعودی مرتب شده و از هر قسمت آن بهعنوان نماینده یک داده برای قرار گرفتن در سری ارزیابی انتخاب میشود[7] . حتی در این روش نیز ضمانتی وجود ندارد که سری‌های آموزشی و ارزیابی روی تمامی نقاط نماینده در فضای توصیف‌کننده‌ها پراکنده بوده و سری آموزشی بتواند تمامی نقاط موجود در سری داده‌ها را تحت پوشش قرار دهد[18] . در حقیقت انتخاب سری‌های آموزشی و ارزیابی باید بر اساس نزدیکی نقاط نماینده‌ی سری آموزشی به نقاط نماینده‌ی سری ارزیابی در فضای چند بعدی توصیف کننده‌ها صورت گیرد. در اصل مفهوم “نزدیکی”، بر اساس مهمترین فرضی است که منجر به شکل گیری روابط QSAR گردیده است[16] :
” ترکیبات مشابه، خصوصیات مشابهی دارند”
در این پروژه از روشی نوین به نام تحلیل خوشه‌ای (CA) [19]جهت انتخاب صحیح اعضای سری‌های آموزشی و ارزیابی (براساس ساختار) استفاده شده ‌است که در ادامه معرفی می‌گردد.
2-1-1-1) تحلیل خوشه‌ای (CA)
تحلیل خوشه‌ای یا خوشه‌بندی نسبت دادن یک سری از اشیاء به گروه‌های معین (یا خوشه‌ها) می باشد، به نحوی که اشیاء موجود دریک خوشه از برخی جهات مشابه بوده ودارای وجه اشتراک باشند. خوشه‌بندی یکی از روش‌های موجود یادگیری غیر نظارت شده است که روشی معمول برای آنالیز آماری داده‌ها در بسیاری از زمینه‌های علمی شامل: یادگیری ماشینی، داده‌کاوی، تشخیص الگو، آنالیز تصاویر، بازیابی اطلاعات و زیست فناوری می باشند[20] . علاوه بر اصطلاح خوشه‌بندی عبارات دیگری نیز دررابطه باهمین مفهوم مورد استفاده قرار می‌گیرند که شامل: طبقه‌بندی خودکار، دسته‌بندی عددی، آنالیز رده‌شناسی و بتریولوژی می‌باشند.
2-1-1-2) انواع خوشه‌بندی
این نوشته در علمی ارسال شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.