شناسایی نواحی کدکننده پروتئینی در دنبالههای DNA با استفاده از روشهای یادگیری ماشین
General Material Designation
[پایاننامه]
Parallel Title Proper
Identification of Protein Coding regions in DNA Sequence Using Machine Learning approach
First Statement of Responsibility
/عباس درویش فشتمی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: مهندسی پزشکی
Date of Publication, Distribution, etc.
، ۱۳۹۷
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۱۰۹ص.
Other Physical Details
:
GENERAL NOTES
Text of Note
زبان: فارسی
Text of Note
زبان چکیده: فارسی
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی - الکترونیکی
NOTES PERTAINING TO PHYSICAL DESCRIPTION
Text of Note
مصور، جدول، نمودار
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
مهندسی پزشکی- بیوالکتریک
Date of degree
۱۳۹۷/۱۱/۰۱
Body granting the degree
صنعتی سهند
SUMMARY OR ABSTRACT
Text of Note
DNAعامل اصلی انتقال وراثت بوده که از دو رشته تشکیل شدهاست .قسمتهایی از DNA که دارای کدهایی برای عملکرد مولکولها میباشد ژن نامیده میشود و قسمتهایی از ژن که درگیر فرآیند پروتئینسازی میشود، نواحی کدکننده پروتئین( اگزون ) نامیده میشود .تشخیص دقیق نواحی کدکننده از نواحی غیرکدکننده( اینترون) به چالشی در تحقیقات بیوانفورماتیک تبدیل شدهاست .در این تحقیق، ابتدا الگوریتمی برمبنای ترکیب روش تبدیل توالی DNA به سیگنال با متد EIIP و روشهای فیلترکردن چندفازه بهمنظور شناسایی نواحی کدکننده پروتئین در توالی DNA ارائه شدهاست .لازم به ذکر است بهکارگیری فیلتر چندفازه موجب کاهش حجم محاسبات شدهاست .سپس با توجه به اینکه یادگیری ژرف، عرصه جدیدی از پژوهشها در زمینه یادگیری ماشین است و مدلهای ژرف( شبکههای عصبیژرف) در بعضی از مسائل مانند پردازش تصویر و بینایی ماشین نسبت به روشهای سنتی عملکرد بسیار چشمگیری داشتهاند، از یادگیری ژرف در کاربردهای مختلف پردازش زبان طبیعی نیز استفاده شدهاست .بنابراین بهعنوان الگوریتم پیشنهادی دوم در این تحقیق یک معماری ژرف برای تشخیص اگزونها ارائه شدهاست .این معماری مبتنی بر شبکههای عصبی کانولوشنال و بازگشتی بوده که در آن لایهای برای یادگیری بردارهای نوکلئوتیدها وجود دارد .الگوریتمهای پیشنهادی با الگوریتمهایی که پیشتر ارائه شدهاند، همچون گورتزل،تجزیه به نقاط تکین(SVD) ، تجزیه به نقاط تکین پایدار(RSVD) ، تبدیل ویولت گابور اصلاح شده(MGWT) و پنجره ویولت عریض (WRWW) مورد مقایسه و ارزیابی قرار گرفتند .نتیجه بهدستآمده از روش پیشنهادی اول دارای نویز بسیار کم بوده که منجر به صحت ۹۴/۱ شدهاست .همچنین روش دوم دارای قلههای بزرگ بوده و به صحتی برابر با ۹۶/۴۷ بر روی داده تست رسیده است که نشاندهنده برتری روشهای پیشنهادی در مقایسه با دیگر روشهای مقایسهای است
Text of Note
DNA is the main source of inheritance that consists of two strands. Each strand that has code for molecule function is called a Gen, and segments within the Gen sequence thatinvolvedinproteinsynthesisiscalledcodingregion(exon). Accurateidentifyingof coding regions from the non-coding (intron) regions is one of the main challenge in the Bioinformatics researches. In this thesis, At the first, An algorithm was proposed based oncombinationoftheEIIPmethodthatschemingtheDNAsequenceandPolyphasefilter inordertoidentifytheproteincodingregionintheDNAsequence. Thenwithconsidering thatDeepLearningisanewfieldinmachinelearningresearchesandDeepmodels(deep neural networks) had a very tremendous results in some tasks like image processing and machinevision. ThesemodelsalsohavebeenusedindifferentNaturalLanguageProcessingtasks. Therefore,thisthesispresentsadeeparchitectureforexondetectionasthesecondalgorithm. Thisarchitectureisbasedonconvolutionalandrecurrentneuralnetworks in which there is a layer for learning nucleotide vectors. Proposed algorithms with previouslypresentedalgorithmssuchasGortzel,SingularValueDecomposition(SVD),Robust Singular Value Decomposition (SVD), Modified Gabor (MGWT), and Wide Range Wavelet Window (WRWW) were compared and evaluated. The result of the first proposed method has very low noise, resulting in an accuracy of 94.1. Also, the second methodhaslargepeaksandhasreached 96.47accuracyontestdata,whichindicatesthe superiorityofproposedmethodscomparedwithothercomparativemethods
ba
PARALLEL TITLE PROPER
Parallel Title
Identification of Protein Coding regions in DNA Sequence Using Machine Learning approach