انتخاب ویژگی و دسته¬بندی داده¬های ریزآرایه جهت شناسایی سرطان
[پایان نامه]
حمیدرضا کاروان پور
دانشگاه شهیدچمران اهواز، دانشکده مهندسی، گروه کامپیوتر
۱۳۹۵
۷۶
همراه سی دی
کارشناسی ارشد
مهندسی کامپیوتر (هوش مصنوعی)
۱۳۹۵/۱۲/۰۹
نام و نام خانوادگی : حمیدرضا کاروان پورعنوان پایان¬نامه : انتخاب ویژگی و دسته¬بندی داده¬های ریزآرایه جهت شناسایی سرطاناستاد راهنما : دکتر سید عنایتالله علوی استاد مشاور: دکتر محمود نادران طحاندرجه تحصیلی : کارشناسی ارشد رشته : مهندسی کامپیوتر گرایش : هوش مصنوعیمحل تحصیل : دانشکدهی مهندسی دانشگاه شهید چمران اهوازتاریخ فارغ¬التحصیلی : زمستان 1395 تعداد صفحه : 74کلید واژه : میکروآرایه، داده¬های نامتعادل، شناسایی سرطان، الگوریتم جهش قورباغه، فیلتر، درخت تصمیم، دسته بندی هزینه¬دا¬ر چکیده : پس از بیماری¬هاي قلبی عروقی و سوانح و حوادث، سرطان از مهمترین عوامل مرگ و میر است. تشخیص به موقع این بیماری از اهمیت زیادی برخوردار است. در این پژوهش، روشی نوین و کارا جهت پیش¬بینی احتمال بیماری سرطان از طریق تحلیل داده¬های میکروآرایه ارائه شده است. یکی از چالش¬های موجود این داده¬ها، تعداد بالای ویژگی¬ها(ژن¬ها) و همچنین تعداد پایین نمونه¬ها است. لذا، در این پژوهش ابتدا از روشی کارآمد در زمینه¬ی انتخاب ژن، از ترکیب نتایج سه فیلتر در جهت کوچک کردن ابعاد مجموعه داده¬ها برای شناسایی و حذف ژن¬های نامرتبط استفاده می¬شود.از دیگر مسائل و چالش¬های مهم در زمینه¬ی دسته¬بندی مجموعه داده¬های میکروآرایه، نامتعادل بودن این داده¬ها می-باشد. به اشتباه دسته بندی کردن یک نمونه از کلاس کوچک¬تر یا به عبارتی تشخیص اشتباه کلاس بیمار، بسیار خطرناکتر از دستهبندی اشتباه یک نمونه کلاس بزرگ¬تر یا کلاس افراد سالم است. برای به حداقل رساندن میزان خطای کلی، بر روی داده¬های نامتعادل، روش های سنتی به خوبی عمل نمی-کنند، در نتیجه از روش¬های دسته¬بندی هزینه¬دار با استفاده از معیار ارزیابی G-MEAN استفاده شده است. در این پژوهش با الگوریتم جهش قورباغه، ماتریس هزینه به دست خواهد آمد. همچنین از الگوریتم ترکیبی جنگل تصادفی با درخت تصمیم هزینه¬دار به عنوان دستهبند پایه، اقدام به دسته¬بندی داده¬های نامتعادل میکروآرایه خواهد شد. جهت جلوگیری از افت دقت دسته بندی، به جای استفاده از یک دسته بند پایه، با استفاده از ایجاد تنوع بین چند دسته بند پایه دقت کلی افزایش خواهد یافت. نتایج به دست آمده حاکی از آن است که روش پیشنهادی مبتنی بر الگوریتم جنگل تصادفی به دلیل توجه به نامتوازن بودن این داده¬ها در اکثر مجموعه داده¬ها نسبت به پژوهش¬هایی که در گذشته بدون توجه به نامتعادل بودن انجام شده کارایی قابل توجهی دارد. به عنوان مثال با الگوریتم پیشنهادی در مجموعه داده سرطان تخمدان به کارایی 37/99 و سرطان سینه به دقت 25/98 دست یافته شده است.در صورتی که با درخت تصمیم ساده به ترتیب میزان کارایی 62/52 و 92/66 بوده است.
Name: Hamid reza KarvanpoorThesis title :Feature Selection and Classification of Microarray Data to Identify CancerThesis Supervisor: Dr. Seyed Enayatollah Alavi Advised by:Dr.Mahmoud Naderan TahanField of study: Artificial IntelligenceKey Words: Microarray, Unbalanced data, Cancer identification, Shuffled frog leaping, Filter, Decision tree, Cost-sensitive classifier.Defense date: Feb 2017 pages: 74Abstract: In this survey, a new and efficient method is represented to predict the likelihood of cancer is one of the most important causes of death. The dataset is extracted from two groups of cancer patients and healthy people.High number of features (genes) and low number of samples are the challenges we were faced in our survey. Up until now, lots of efforts were done to select the gene and classify the data, and the results shows the advantage of ensemble techniques over individual techniques. So, we used an efficient method which is the obtained from combining the results of three filters to reduce the size of dataset in order to identify and omit irrelevant genes.Another important challenge in classification of microarray dataset is the imbalance factor of these data. Normally, incorrect classification of a sample in minority class or in the other words, incorrect classification of patient class is much more dangerous than incorrect classification of a sample in majority class or healthy class. Traditional methods of minimizing the total error doesn't have a good performance on imbalanced data. As a result, cost-sensitive classification methods using G-MEAN evaluation criteria are used.In this study, we calculate the cost matrix using shuffled frog leaping (SFL). Random forest ensemble algorithm using cost-sensitive decision tree as the base classifier is used to classify imbalanced microarray data.To prevent classification accuracy decrease, instead of using a base classifier, we increase the total accuracy by creating diversity between some base classifiers. To classify the data, we've tried to introduce the proposed method considering the features in microarray data and based on advantages and disadvantages of different classification methods with supervisor and ensemble. For example, the proposed algorithm in the ovarian cancer dataset yielded 99/37 and breast cancer with a precision of 98/25. In the case of simple decision trees, the efficiency was 52/62 and 66/92, respectively.