به کارگیری الگوریتم رندم فارست به منظور تشخیص اثرهای متقابل پلیمورفیسمهای تک نکلوئوتیدی در دادههای ژنتیکی و مقایسه عملکرد آ ن با سایر روشهای یادگیری ماشینی
نام عام مواد
[پایاننامه]
عنوان اصلي به زبان ديگر
Application of Random Forest Algorithm in Identification of single nucleotide polymorphism in genetics data and its comparison with other machine learning algorithms
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: University of Welfare and Rehabilitation Sciences
تاریخ نشرو بخش و غیره
، ۱۳۹۲
مشخصات ظاهری
نام خاص و کميت اثر
۱۱۲ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
آمار و کامپیوتر
کسي که مدرک را اعطا کرده
دانشگاه علوم بهزیستی و توانبخشی
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
مقدمه :امروزه، روشصهای یادگیری ماشینی یکی از تکنیکصهای غربالگری متغیرهای تاثیرگذار و اثرات متقابل آنصها بر متغیر پاسخ محسوب میصشوند .با این وجود هنوز هم این سوال وجود دارد که کدام روش یادگیری ماشینی نه تنها متغیرهای مهم و اثرات متقابل آنصها را استخراج میصنماید، بلکه متغیرهایی را که هیچ ارتباطی با متغیر پاسخ مورد نظر ندارند را نیز به صورت همزمان کنار میصگذارد .از طرفی تفسیر ساده و قابل فهم این روش نیز مد نظر است .هدف این مطالعه معرفی و کاربرد برخی از روشصهای یادگیری ماشینی بر استخراج متغیرهای مهم و کشف اثرات متقابل آنهاست .بدین منظور از اطلاعات ژنتیکی پلیصمورفیسمصهای تکصنکلئوتیدی در بررسی ابتلا به بیماری شریانصهای کرونری استفاده شد .روشصها 224 :شرکت کننده شامل 141 فرد مبتلا به عروق کرونری و 83 فرد به عنوان شاهد در نظر گرفته شدند .در مجموع، ژنوتیپ 50 پلیصمورفیسم تکصنکلئوتیدی در دو ژن LDLR و PCSK9 به منظور تحلیل جمع آوری شد .سه رویکرد مختلف برای تحلیل این پلیصمورفیسمصها در نظر گرفته شد، سپس نه روش یادگیری ماشینی بر دادهصهای حاصل، برازش داده شد :روش رندم فارست، درخت رگرسیونی-کلاسصبندی، مدل لجستیک درختی، دو حالت روش بگینگ، دو حالت روش آدابوست ، لوجیت بوست و الگوریتم .C4.5 سرانجام، عملکرد پیشصبینی هر کدام از روشصها بر اساس چهار ملاک با استفاده از اعتبارسنجی متقابل 10 مرحلهصای مورد ارزیابی قرار گرفت :حساسیت، ویژگی، خطا و ضریب همبستگی متیو .یافتهصها :بر اساس ملاکصهای در نظر گرفته شده، روش آدابوست بر اساس الگوریتمC4.5 ، بهترین عملکرد پیشصبینی را در میان سایر روشصها داشت .این الگوریتم وضعیت مراجعین آینده را بر اساس ژنوتیپصهای پلی-مورفیسمصهایشان به افراد مستعد به بیماری و افرادی که از نظر ژنتیکی مستعد به بیماری نیستند، تعیین می-نماید .نتیجهصگیری :در این مطالعه، مدلصهایی که اثرات متقابل را در نظر میصگیرند، عملکرد بهتری نسبت به مدل-هایی که اثرات متقابل را در نظر نمیصگرفتند، داشتند .همچنین، متغیرهای اغتشاشصگر در برخی از مدلصهای یادگیری ماشینی کنار گذاشته شدند .در حالت کلی، الگوریتم آدابوست بر اساس الگوریتم C4.5 برای انتخاب و استخراج همزمان چندین پلیصمورفیسمص مرتبط با بیماری به عنوان یکی از اولین انتخابصهای پژوهشگر توصیه میصشود .کلید واژه ها :یادگیری ماشینی، پلیصمورفیسمصهای تکصنکلئوتیدی، بیماری عروق کرونر، اثر متقابل
متن يادداشت
Background: In recent years, machine learning (ML) approaches are one of the screening approaches in extracting important variables and their interactions. Still, one question remains in this area: which ML method should be considered in order to extract the important variables and their interactions while, this method, simultaneously consider the marginal effect of each variable while controlling for the others; this approach should be simple and easy to interpret as well. Introduction and application of some ML methods were among the aim of this study, also single nucleotide polymorphism (SNPs) status in prevalence of coronary artery disease (CAD) were considered as our data. Methods: 224 total participants, 141 diagnosed with coronary artery disease and the other 83 patients with non-coronary disease were participated in the study. Together, genotype information of 50 SNP of two genes was collected. Then, three different procedure with nine machine learning methods were considered: Random Forest (RF), Classification-regression tree (CART), Logistic Model Tree (LMT), two types of Bagging, two types of Adaboost, LogitBoost, and C4.5 algorithm. Finally, the prediction performance of these methods was assessed by four criteria: sensitivity, specificity, error, and Mathew's correlation coefficient (MCC) by using 10-fold cross-validation. Results: as results showed, Adaboost using C4.5 algorithm as weak learner seemed the most promising method, having the best performance due to the four criteria for classifying the future partakers into high-risk and low-risk of coronary artery disease. Conclusion: The results showed better performance for interaction models versus non-interaction ones. Also, higher order models successfully ignore the noise variables. Adaboost using C4.5 algorithm should be the first choice of the investigator for extracting and selecting SNPs associated with the disease. Key words: Machine learning, single nucleotide polymorphisms (SNPs), Coronary artery disease (CAD), Interaction
خط فهرستنویسی و خط اصلی شناسه
ba
عنوان اصلی به زبان دیگر
عنوان اصلي به زبان ديگر
Application of Random Forest Algorithm in Identification of single nucleotide polymorphism in genetics data and its comparison with other machine learning algorithms
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )