دستهبندی و تحلیل ساختاری دادههای سرطانی DNA با استفاده از رویکردهای مبتنی بر پردازش سیگنال و محاسبات نرم
Classification and Structural Analysis of Cancerous DNA Data via Signal Processing and Soft Computing Approaches
/امین خدائی
: مهندسی برق وکامپیوتر
، ۱۳۹۹
، راشدی
۱۲۴ص
چاپی - الکترونیکی
دکتری
مهندسیکامپیوتر
۱۳۹۹/۰۷/۲۹
تبریز
سرطان طی چند دهه اخیر به یکی از بیماریهایی مبدل گشته است که میزان ابتلا و فوت آن در حال افزایش و نگران کننده میباشد .بررسی ابعاد مختلف دادههای این بیماری میتواند رویکرد مثبتی در راستای تشخیص، پیشبینی، طبقهبندی و حتی راهحل درمانی یا ساخت داروی این بیماری باشد .با توجه به ابعاد بالا و تنوع زیاد دادههای این بیماری و ساختار بسیار حجیم اطلاعاتی آن، استفاده از رویکردهای کامپیوتری برای دادهکاوی و تحلیل اطلاعات به دست آمده از اجزای درون سلولی ژنتیکی مرتبط با این بیماری بسیار تاثیرگذار بوده است .در این پژوهش نیز سعی شده است تا دادههای سرطانی در قالب دنبالههای DNA و دادههای بیان ژنی مورد بررسی قرار گیرند و روشهایی برای تشخیص سرطانی بودن نمونهها و دستهبندی آنها و یا بهبود عملکرد این امور ارائه گردد .چارچوب پیشنهادی پژوهش مبتنی بر سه رویکرد مختلف تشخیص دادههای سرطانی و دستهبندی آنهاست .در دو رویکرد اول پیشنهادی، هدف تحلیل نمونههای DNA در قالب دنبالههای نوکلئوتیدی است ولی رویکرد سوم روی دادههای بیان ژنی فناوری ریزآرایه انجام گرفته است .در رویکرد اول پیشنهادی، دادههای دنبالهای DNA در قالب سیگنال عددی مورد بررسی قرار گرفتهاند و یک مدل ترکیبی مبتنی بر مولفه ژنتیکی تناوب- ۳ارائه شده است .بدین منظور یک رویکرد پردازش سیگنال ترکیبی مبتنی بر روش DFT و فیلترnotch - Antiبرای استخراج ویژگی ارائه شده است .در رویکرد دوم پیشنهادی که بدون نگاشت سیگنالی انجام گرفته است، دنبالههای DNA در قالب دنبالهای از حالات تصادفی بررسی شده است و یک رویکرد مبتنی بر مدل مارکوف برای استخراج ویژگی ارائه شده است .آزمایشهای متعددی بر حسب رویکردهای مذکور روی حدود ۱۰۰۰ نمونه مطالعاتی انجام گرفته است .این آزمایشها محدود به یک نوع خاص سرطان نبوده و دادههای انواع مختلف سرطان بررسی شده است .نتایج به دست آمده نشان داد که مدل غیرخطی SVM استفاده شده توانایی دستهبندی فضای ویژگی حاصل را با دقت ۱۰۰ ممکن میسازد .در رویکرد سوم پیشنهادی، راهکاری مبتنی بر الگوریتم مکاشفهای ABC برای مساله بهینهسازی دقت دستهبندی دادههای بیان ژنی ارائه شده است .در راهکار ارائه شده روابط مابین ویژگیها در قالب یک گراف تعریف شده است و از معیار مرکزیت بردار ویژه در توصیف تابع هدف کمک گرفته شده است .آزمایشهای انجام گرفته روی مجموعه دادههای مرتبط با سرطان پروستات نشان داد که با کمتر از ۵۰ ویژگی، شبکه عصبی توانایی تفکیک و تشخیص نمونههای سرطانی را میسر میسازد .نتایج به دست آمده نشان داد که میتوان ویژگیهای استخراج شده را به عنوان مولفههای متمایزکننده دو دسته سرطانی و غیرسرطانی در نظر گرفت .از جمله مزایای دو رویکرد اول پیشنهادی میتوان به قابلیت تفسیرپذیری زیستی ویژگیها و عملکرد مستقل رویکردهای اتخاذی نسبت به نوع سرطان و طول دنبالههای مورد مطالعه اشاره کرد .آزمایشهای انجام گرفته روی رویکرد سوم نیز نشان داد که نگرش گرافی به فضای ویژگی دادههای بیان ژنی میتواند در بهبود صحت دستهبندی داشته باشد
In recent decades, Cancer has become one of the diseases, that its rate of infection and death is increasing and worrying. Analysing the various dimensions of this disease data can be a decisive approach to diagnosis, prognosis, classification and even the treatment or drug solution of this disease. The high dimensions, variety and information structure of this disease data must be considered. Therefore, the use of computerized approaches for data mining and analysis of obtained information from the intracellular genetic components, has been very influential in this way. In this study, we have tried to study cancerous data in the form of DNA sequences and gene expression. In this regard, novel approaches have been proposed to classify or diagnose cancerous samples or improve the performance of previous studies. The proposed research framework is based on three different approaches. The aim of first two approaches is analysing samples in the form of DNA nucleotide sequences. However, the third approach is based on gene expression data and microarray technology. In the first proposed approach, DNA sequence are investigated in the form of numerical signals. By considering these signals, a hybrid model is presented based on the period-3 genetic characteristic. For this purpose, a combinatorial signal processing approach is proposed based on DFT technique and anti-notch filter for feature extraction. The second proposed approach is accomplished without signal mapping. DNA sequences are studied in the form of random processes, and a Markov model-based approach has been presented for feature extraction. Numerous experiments have been conducted on about 1000 samples. These experiments have not been done on just one specific type of cancer, and different types of cancer data have been tested. The results showed that the nonlinear SVM model makes it possible to classify the resulting feature space with 100 accuracy. In the third proposed approach, the ABC heuristic algorithm is presented for optimizing the accuracy of the gene expression data classification. In the proposed solution, the genes relationships are defined in the form of a graph, and the eigen-vector centrality criterion has been used to describe the objective function. Experiments on prostate cancer-related dataset show that with less than 50 features, the neural network enables to discriminate and detect cancerous cases with complete accuracy. The results show that the extracted features can be considered as distinctive features of cancer and non-cancerous samples. Bio-interpretability of the obtained features and the independent performance of the adopted approaches to the type and length of the case studies were the main advantages of the first two proposed approaches. Experiments performed on the third approach also showed that Graph-based approach can improve the accuracy of classification by considering the dimensions of feature space on the gene expression data
Classification and Structural Analysis of Cancerous DNA Data via Signal Processing and Soft Computing Approaches