دستهبندی نژادهای اسب کاسپین، آخال تکه و عرب با روش یادگیری ماشین
Classification of Caspian, Akhal Teke and Arab breeds of horses with Machine learning method
/نسرین بابائی
: کشاورزی
، ۱۳۹۷
، میرزائی
۹۰ص
چاپی - الکترونیکی
کارشناسی ارشد
علوم دامی گرایش ژنتیک و اصلاح نژاد دام
۱۳۹۷/۱۱/۱۷
تبریز
ابداع روش توالی یابی جدید با توان بالا و مقرون به صرفه در طی سالیان اخیر، امکان ارزیابی ساختار ژنتیکی و ارتباط میان جمعیت-های یک گونه رابا استفاده از اطلاعات ژنومی فراهم ساخته استSNP .ها در مطالعه تنوع ژنتیکی دامصهای اهلی و ساختار جمعیت سودمند هستند .استنتاج ساختار جمعیت از نشانگرهای ژنتیکی، در شرایط گوناگون مثل مطالعات ارتباطی و تکاملی و دستهصبندی زیرگونهصها مفید میصباشد .روشصهای آماری گوناگونی برای آنالیز دادهصهای حاصل از توالی یابی باSNP ها بکار گرفته میصشوند که روشصهای یادگیری ماشین از جمله آنصها است .در اصلاح نژاد اسب، یکی از مسائل مورد توجه محققین، تشخیص اطلاعات شجرهصای حیوان با استفاده از اطلاعات ژنوتیپی است.هدف این تحقیق بررسی ساختار جمعیتی ۳ جمعیت اسب مربوط به منطقه خاورمیانه با استفاده از دادهصهای ژنومی تراشهصی تک نوکلئوتیدی ۵۰هزار (۵۰ k)با روشصهای دسته بندی جنگل تصادفی و درخت تصادفی و روشصهای معمولی تجزیه مؤلفهصی اصلی و تجزیه تشخیصی مؤلفهصی اصلی بود .برای این منظور از اطلاعات نشانگرهای تک نوکلئوتیدی ۶۱رأس استفاده شد .دسته-بندی با روش جنگل تصادفی و درخت تصادفی با روش اعتبارسنجی متقابل با مرتبه۳۵-۲۹-۱۷-۱۲- ۶ انجام شد .نتایج نشان داد که در روش تجزیه به مؤلفه های اصلی ۸/۱۰درصد واریانس توسط دو مؤلفه اول توجیه شد و همچنین ۳ جمعیت از هم جدا شدند .در روش تجزیه تشخیصی مؤلفهصهای اصلی، در یافتن تعداد بهینه خوشهص با معیار اطلاعات بیزی، K=۳ کمترین BICرا نشان داد و ۳ جمعیت کاملا از هم جدا تشخیص داده شدند .در روش جنگل تصادفی مرتبه ۳۵ با صحت ۹۸۳/۰، دقت ۹۸۴/۰و ضریب کاپا ۹۷۵/۰دستهصبندی بهتری نسبت به بقیه مرتبهصها انجام داد و توانست۳ جمعیت را کاملا از هم جدا دستهصبندی کند .در روش درخت تصادفی بهترین دستهصبندی مربوط به مرتبه ۱۷ با ضریب کاپا ۴۱۱/۰و دقت ۶۰۷/۰ و صحت ۶۰۶/۰بدست آمد .در مجموع نتایج این تحقیق نشان داد که الگوریتم جنگل تصادفی در مقایسه با درخت تصادفی عملکرد بهتری در دستهصبندی دقیق دادهصها دارد و میزان صحت و همچنین دقت بالایی نسبت به روش درخت تصادفی دارد و توانست تفکیک خوبی از جمعیتصها را نشان دهد .در این مطالعه روشصهای مختلف برای بررسی ساختار جمعیت به کار برده شدکه توانستند ساختار جمعیتی این جمعیتصها را نشان دهند .نتایج بدست آمده حاکی از این است که جمعیتصهای آخالصتکه، کاسپین و عرب ایرانی، ۳ نژاد جدا میصباشند و در محدوده ژنوتیپصهای مورد بررسی اشتراک ژنتیکی ندارند
Recently the new invention of high-power, cost-effective sequencing has provided possinility evaluation of the genetic structure and the relationship among the utilizing genomic data populations of SNPs are useful in studying the genetic diversity of domestic animals and population structure. Inference of population structure from genetic markers is useful in various conditions such as relationship and evolutionary studies, subspecies classification and determination of bottle neck. Various statistical approaches have been applied to analyses the sequence data with SNP genotyping methodology in with Machine learning methods are new. In horse breeding, distinguish of animal pedigree or breed with utilizing genotyping data is the nowadays challenges. The purpose of this study was to verify the population structure of three horse populations from the Middle East region using SNP chip 50K data with Random Forest, Random Tree classification methods and classic methods of Principal Component Analysis and Discriminant Analysis Principal Component. In total 61 horses used in this study. Classification done by Random Forest and Random Tree with Cross-Validation method with Fold 6-12-17-29-35. In the Principal Component Analysis method results showed 10.8 of variance was explained by the first two components. and 3 populations were separated. Also, in Discriminant Analysis Principal Component analysis to finding the optimal number of clusters with the Bayesian information criterion index, K = 3 showed the lowest BIC, and with K = 3, the three populations were completely separated. That Random Forest method with Fold 35 with accuracy of 0.983 and precision of 0.984 and Kappa coefficient of 0.975 performed better than other Folds. Three populations classified as completely separated. Random Tree method with Fold 17 with accuracy of 0.606 and precision of 0.607 and Kappa coefficient of 0.411 performed better than other Folds. Overall result showed Random Forest compared to the Random Tree had better performance in classification as well as high precision and accuracy than the Random Tree method. Random Forest was able to distinguish populations with genomic data. In this study, various methods have been used to study the population structure that were able to represent the population structure of these populations. In conclusion the populations of Akhal take, Caspian, and Arabic with machine learning method classification are three separate breeds. and do not have genetically subscription, in the range studied of genotypes
Classification of Caspian, Akhal Teke and Arab breeds of horses with Machine learning method