انتخاب ویژگی برای پیشبینی تابع پروتئین با استفاده از یک رویکرد تکاملی
الناز عبداله پور حسینی
پردیس دانشگاه تبریز
۱۴۰۰
۹۸ص.
سی دی
کارشناسی ارشد
علوم کامپیوتر گرایش سیستمهای کامپیوتری
۱۴۰۰/۰۳/۲۲
پیشبینی عملکرد پروتئین یکی از مسائل مهم در دانش ژنومیک کاربردی است. شناخت بهتر عملکرد پروتئینها میتواند عامل پیشرفت دانش بیولوژی و کاربردهای آن از قبیل توسعه داروها و محصولات جدید باشد. کاربرد اساسی پیشبینی عملکرد پروتئین در بیوانفورماتیک، تعیین نقشهای بیولوژیکی پروتئینها است. هدف از این پیشبینی، یافتن ساختارهایی در پروتئینها است که عملکرد آنها شناخته شده باشد چراکه با شناسایی ساختارهای مشابه، عملکرد پروتئینهای جدید پیشبینی شود. روش خوشهبندی سلسلهمراتبی دارای محدودیتی است بهطوری که اگر یک پیشبینی در سطوح بالاتر نادرست باشد، دیگر قابل اصلاح نیست و افزایش تعداد دستهها در سطوح پایینتر باعث کاهش تعداد نمونههای هر دسته میباشد. اما این دو عامل در دقت پیشبینی در سطوح بالاتر نقش بسیار اساسی دارند؛ بنابراین مسئله اصلی در پیشبینی عملکرد پروتئین، افزایش پیچیدگی مدلهای دستهبند در مواجه با تعداد زیاد ویژگیها است. مسئله انتخاب ویژگی برای افزایش کارایی و بهبود عملکرد دستهبند اهمیت بسزایی دارد. انتخاب ویژگی یک مسئله بهینهسازی چندجملهای غیرقطعی-سخت است و با توجه به کارایی این الگوریتمها در حل مسائل بهینهسازی، میتوان از الگوريتمهای بهينهسازی برای حل مسئله انتخاب ويژگی برای پیشبینی عملکرد پروتئین بهکار برد. مسئله انتخاب ویژگی بهعنوان یک مسئله بهینهسازی فرمولبندی شده و سپس جهت حل آن، الگوریتم ترکیبی ژنتیک و فاخته پیشنهاد و پیادهسازی شده است. معیار ارزیابی شامل دقت پیشبینی و انتخاب زیرمجموعه با طول کمینه از ویژگیها، است. نتایج آزمایشها نشانگر عملکرد بهتر الگوریتم پیشنهادی نسبت به الگوریتمهای ژنتیک و فاخته است
Predicting protein function is one of the most important issues in applied genomic knowledge. Better understanding of the function of proteins can advance the knowledge of biology and its applications, such as the development of new drugs and products. The basic application of protein function prediction in bioinformatics is to determine the biological maps of proteins. The purpose of this prediction is to find structures in proteins whose function is known, because by identifying similar structures, the function of new proteins can be predicted. The hierarchical clustering method has such a limitation that if a prediction at higher levels is incorrect, it can no longer be corrected, and increasing the number of categories at lower levels reduces the number of samples in each category. But these two factors play a very important role in the accuracy of forecasting at higher levels; Therefore, the main issue in predicting protein performance is to increase the complexity of categorization models in the face of a large number of features. Feature selection is important to increase performance and improve categorization performance. Feature selection is an indefinite-difficult polynomial optimization problem, and given the efficiency of these algorithms in solving optimization problems, optimization algorithms can be used to solve the feature selection problem to predict protein performance. The feature selection problem is formulated as an optimization problem and then a combined genetic and cuckoo algorithm is proposed and implemented to solve it. The accuracy of prediction and subset selection has been evaluated with at least two criteria.The results of the experiments show that the proposed algorithm performs better than the genetic algorithm and the cuckoo algorithm
Feature selection for Function prediction using an evolutionary algorithm