طراحی و توسعه راهکارهای اکتشافی برای انتخاب ژن جهت دستهصبندی دادههای میکروآرایه سرطان
Design and Development of Metaheuristics-based Approaches for Gene Selection in Microarray Cancer Data Classification
/محمد حسین دشتبان
: علوم ریاضی
، ۱۳۹۷
، افشاری
۱۰۲ص
چاپی - الکترونیکی
دکتری
علوم کامپیوتر
۱۳۹۷/۱۰/۲۴
تبریز
انتخاب ژن یک امر ضروری برای پردازش دادهصهای میکرو آرایه میصباشد .این مسئله به خاطر پیچیدگیصهای گسترده در بافت سرطانی مختلف هنوز امری بسیار چالش آور میصباشد .در این پایانصنامه دو راهکار متفاوت مبتنی بر روشصهای تکاملی وهوش مصنوعی برای یافتن ژنصهای موثر در طبقهصبندی سرطانصها ارائه شده است .روشصهای تکاملی استفاده شده در این تحقیق شامل الگوریتم ژنتیک و الگوریتم خفاش است .در هر راهکار ابتدایک روش پالایه برای کاهش بعد فضای ویژگی استفاده شده است .به دنبال آن یک الگوریتم فرااکتشافی که در این پایانصنامه توسعه یافته است، مورد استفاده قرار میصگیرد .در بخش اول این تحقیق، الگوریتم ژنتیک با نوع نمایش عددصحیح و با ژنوتایپ طول متغیر و پارامترهای هوشمند و عملگرهای بهبود یافته ارائه شده است .رفتارهای همگرایی الگوریتم و همچنین تغییرات نرخ تزویج و جهش زمان اجرا نیز مورد مطالعه و بحث قرا گرفت .در بخش دوم تحقیق، نسخه چندهدفه الگوریتم خفاش برای انتخاب ویژگی توسعه داده شد .در توسعه این الگوریتم از مفاهیم یادگیری اجتماعی و الگوریتم ژنتیک برای توسعه جستجوی محلی استفاده شد .به صطوری که در این استراتژیصها، عملگرهایی مانند تزریق، افزایش و کاهش جهت افزایش قدرت اکتشاف و بکارگیری در فرآیند جستجو معرفی گردید .دو روش پالایه کارا و مشهور با نامصهای لاپلاسیون و فیشر بهصعنوان گام کاهش فضای ویژگی در راهکار هیبریدی ارایه شده مورد مطالعه قرار گرفتند .ویژگیصهای مشترکی که این دو روش انتخاب کرده بودند و کیفیت ژنصهای انتخاب شده توسط این دو روش و تاثیر آنصها نیز مورد بررسی و آزمایش قرار گرفت .آزمونصهای آماری متفاوتی بر روی نوع طبقهصبند، نوع مجموعه داده و نوع پالایه مورد استفاده، انجام شد .این آزمایشات اختلاف قابل توجهی را بین عملکرد طبقهصبندهای مختلف و روشصهای مختلف بر روی مجموعه داده-ها به نمایش گذاشتند .الگوریتمصهای ارایه شده بر روی پنج مجموعه دادهصی سرطانی ابعاد بالای مشهور مورد آزمایش قرار گرفت .در نهایت، برخی از زیرمجموعهص ژنصهای مهم یافته شده توسط الگوریتمصها گزارش شدند .روش فوق با جدیدترین روشصهای موجود مقایسه شد و نشان داد که روشصهای ارائه شده نتایج قابل مقایسهص و در برخی موارد بهتر از اخرین روشصهای موجود بدست آوردند .همگرایی الگوریتمصها نیز مورد مطالعه و مقایسه قرار گرفت .نتایج نشان دادند که الگوریتمصهای ارائه شده سرعت همگرایی مناسبی در کاستن تعداد ویژگیصها و کاهش خطا دارند
ve Bayes and Decision Trees are employed to evaluate the obtained solutions. Furthermore, the running time of each algorithm is studied which depicts the fast convergence of proposed algorithms in terms of both reducing the number of genes within chromosomes and minimizing error. Finally, some top explored genes of each data set are reported among which are some new subsets of highly informative genes in Breast, DLBCL and Leukemia datasetsگIdentifying the informative genes has always been a major step in microarray data analysis. The complexity of various cancer datasets makes this issue still challenging. In this study, two novel approaches based on concepts and techniques of artificial intelligence and evolutionary methods are proposed for gene selection in cancer classification. Employed methodologies include genetic algorithm, bat algorithm, multi-objective feature selection, random restart hill climbing and social learning. In each part of research, firstly, a filter approach is exploited to remove the most irrelevant and redundant features thereby improving the time complexity of an upcoming wrapper approach. In the first part of this research, a novel genetic algorithm with integer-coded representation, dynamic-length genotype, intelligent parameter settings, and modied operators, is proposed. The algorithmic behaviors including convergence trends, mutation and crossover rate changes, and running time were studied, conceptually discussed, and shown to be coherent with literature ndings. Several statistical tests concerning choice of classifier, choice of dataset, and case of filter method are performed reveal some significant differences between the performances of different classifiers and filter methods over datasets. In the second part, a novel Bio-inspired Multi-objective algorithm is proposed for feature selection in binary domain. The presented method extends the traditional Bat Algorithm with refined formulations, effective multi-objective operators, and novel local search strategies employing social learning concepts in designing random walks. It also integrates some specific characteristics of genetic algorithm like mutation operator within the random walk operators to increase the exploration capability of the algorithm. The proposed approaches are benchmarked upon five popular high-dimensional cancer datasets. Four widely-used classifiers, namely, SVM, KNN, Na
Design and Development of Metaheuristics-based Approaches for Gene Selection in Microarray Cancer Data Classification