انتخاب ژن در تشخیص بیماری با استفاده از تحلیل آماری داده¬ها و روش¬های یادگیری ماشین
First Statement of Responsibility
حامد خیاط عجمی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
ریاضی،آمار و علوم کامپیوتر
Date of Publication, Distribution, etc.
۱۴۰۲
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۹۱ص.
Accompanying Material
سی دی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
علوم کامپیوتر، گرایش محاسبات نرم و هوش مصنوعی
Date of degree
۱۴۰۲/۰۴/۱۴
SUMMARY OR ABSTRACT
Text of Note
یکی از روشهای مطرح برای تشخیص برخی از بیماریها، تحلیل دادههای بیان ژن ریزآرایه مربوط به آنها است. دادههای بیان ژن ریزآرایه معمولا دارای تعداد نمونههای کم و تعداد ویژگیهای بسیار بالایی هستند. یکی از زمینههای تحقیقاتی مهم در این راستا، شناسایی ژنهایی است که در تشخیص یا پیشبینی بیماریها نقش تعیینکنندهای را ایفا میکنند. روشهای پیشنهادی، به طور معمول از مفاهیم گوناگون آماری و یادگیری ماشین برای شناسایی این ژنها استفاده میکنند. در این میان، در بیشتر کارها اطلاعات زیستی مفیدی که برای ژنها وجود دارد، استفاده نمیشود. از اطلاعات زیستی مهم میتوان به شبکه کنش ژنی اشاره کرد. این شبکه دارای اطلاعات برهمکنشی مختلفی بین جفت ژنها است که میتوانند در شناسایی ژنهای تعیینکننده در بیماری مؤثر واقع شوند. اغلب کارهای گذشته به طور مؤثر از ابزارهای آماری، یادگیری ماشین و اطلاعات زیستی در کنار هم بهره نبردهاند. براساس مطالعات انجام گرفته کنار هم قرار دادن مناسب این دادهها نه تنها ابعاد دادهها را کاهش میدهد بلکه مزایایی از جمله یافتن ژنهای معنادار در تشخیص دقیق بیماری را نیز به همراه دارد. در این تحقیق، با محوریت مفاهیم یادگیری ماشین به همراه مفاهیم آماری و اطلاعات زیستی روشی برای انتخاب ژنهای مؤثر در بیماری و کاهش بعد دادههای بیان ژن ارائه شده است. در این روش، ابتدا ژنهای مهم از لحاظ آماری با استفاده از مفهوم آماره B شناسایی میشوند. سپس، با اعمال دو روش انتخاب ویژگی فیلتر مبتنی بر شبکه کنش ژنها و پوششی مبتنی بر الگوریتم ژنتیک، ژنهای مؤثر انتخاب میشوند. ارزیابی روش پیشنهادی بر روی دادههای مربوط به بیماری آلزایمر قابلیت بالای آن را در تشخیص دقیق بیماری نشان میدهد
Text of Note
Abstract: One of the ways to diagnose diseases is to analyze their gene expressionmicroarray data. These datasets have a small number of samples and a large number offeatures. One of the important research areas in this field is the identification of genesthat play a decisive role in diagnosing or predicting diseases. Regularly, the proposedmethods use various statistical concepts and machine learning to identify such genes.In the meantime, biological information about genes is not used in most of the works.The gene interaction network is one of the important biological information. Thisnetwork includes various interrelationships between genes that can be useful in identifying the genes of a disease. Most past work has not used statistical tools and machinelearning and biological information together effectively. According to studies, combining biological information and microarray data not only reduces the dimensions ofmicroarray data but also provides advantages such as finding meaningful genes in theaccurate diagnosis of a disease. In this research, by focusing on the concepts of machine learning along with statistical concepts and biological information, an effectivemethod has been proposed to select the determining genes in the disease and reduce thedimensions of microarray gene expression data. In this method, statistically significantgenes are first identified using the B-statistic concept. Then, the determining genes areretrieved by applying a filter feature selection based on the gene interaction networkand wrapper feature selection based on the genetic algorithm, respectively. The evaluation of the proposed method on the microarray gene expression data of Alzheimer’sdisease shows its high ability to accurately diagnose the disease.
OTHER VARIANT TITLES
Variant Title
Gene selection for diagnosing a disease using statistical data analysis and machine learning techniques