بررسی ساختار ژنتیکی جمعیت گاومیش های آذربایجانی با استفاده از داده هایSNP Chip ۹۰K
/زهرا عزیزی
: کشاورزی
، ۱۳۹۵
چاپی
دکتری
علوم دامی گرایش فیزیولوژی دام
۱۳۹۵/۰۶/۲۰
تبریز
با پیشرفتهای شگرف اخیر در دانش ژنتیک، امروزه این امکان فراهم گردیده تا تعداد بسیار زیادی SNP که در سراسر طول ژنوم پراکندهاند، به طور همزمان مورد بررسی قرار گرفته و تعیین ژنوتیپ شوند و منجر به ساخت تراشه-های SNP شوند که این SNP ها در مطالعه تنوع ژنتیکی دامصهای اهلی و ساختار جمعیت سودمند هستند .هدف این تحقیق بررسی ساختار و لایهصبندی جمعیت گاومیشصهای مناطق مختلف دو اکوتیپ آب و هوایی آذربایجان و شمال با استفاده از دادهصهای SNPChip ۹۰K با روشصهای خوشهصبندیmeans- K، PAM و Som و روشصهای معمول بررسی ساختار جمعیتی تجزیه مولفهصهای اصلی، مقیاس بندی چند بعدی، آنالیز اختلاط نژادی)ادمیکسچر(، و روشصهای با نظارت ماشین بردار پشتیبان، جنگل تصادفی و تجزیه تشخیصی مولفهصهای اصلی بود .برای این منظور تعداد ۲۵۸ گاومیش از استانصهای آذربایجان شرقی، آذربایجان غربی و اردبیل مربوط به اکوتیپ آب و هوای آذربایجان و از استان گیلان مربوط به اکوتیپ آب و هوایی شمال نمونهصگیری و تعیین ژنوتیپ شدند .تعداد بهینه خوشه با روشصهای خوشه بندی از جملهmeans- K، PAM و سلسله مراتبی و شبکه عصبی بدون نظارت نقشه خود سازمان ده، با شاخص های ارزیابی دان و سیلهاوت و با در نظر گرفتن k از ۲ تا۶ ، k=۲ بدست آمد .پلاتصهای حاصل از تجزیه مولفهصهای اصلی و مقیاس بندی چند بعدی، تفکیک این دو اکوتیپ و استانصهای مختلف را براساس فواصل انجام داد که دام های استانصهای آذربایجان شرقی و غربی هم پوشانی زیادی داشتند و همه استانصها در میانه شکل هم پوشانی داشتند .دام-های استان های اردبیل و گیلان نیز نسبت به بقیه استانصها از هم فاصله داشته و خلوص بیشتری داشتند .روش ادمیکسچر نیز نزدیکی فاصله ژنتیکی دام های استانصهای مختلف دو اکوتیپ را نشان داد که البته تعداد کمی دام های خالص هم در این بین وجود داشتند و k=۳ خطای اعتبارسنجی پایینی (۶۳/۰)نسبت به بقیه تعداد k در نظر گرفته شده داشت .روش تجزیه تشخیصی مولفهصهای اصلی، در یافتن تعداد بهینه خوشه با معیار ارزیابیBIC ، K=۱ کمترین BIC را نشان داد و در خوشه بندی دامصها با دو مولفه اول مثل روشصهای تجزیه مولفهصهای اصلی و مقیاس بندی چند بعدی دام های استانصهای آذربایجان شرقی و غربی هم پوشانی نشان دادند و نتایج اعتبار سنجی متقابل برای نگه داشتن تعداد مولفه اصلی بهینه برای تجزیه تشخیصی، ۶۰ مولفه اول میانگین مجموع مربعات خطای کمتری نسبت به مولفهصهای با تعداد کمتر و بیشتر از این مقدار نشان داد و با ۶۰ مولفه اول، تصویر واضحی از ساختار ژنتیکی جمعیت های مورد مطالعه مشاهده شد و دامصهای استانصهای مختلف از همدیگر جدا شدند .به عبارتی در مقایسه تجزیه تشخیصی مولفهصهای اصلی با تجزیه مولفه های اصلی، تجزیه مولفهصهای اصلی قادر به ارزیابی گروهصها نبوده و تجزیه تشخیصی مولفهصهای اصلی نسبت به تجزیه مولفهصهای اصلی تصویر واضحی از ساختار جمعیتی ارائه میصدهد .در این مطالعه استنباط عضویت دام های گروه ها با استفاده از مسئله یادگیری با نظارت و روشصهای ماشین بردار پشتیبان، جنگل تصادفی، تجزیه تشخیصی مولفهصهای اصلی صورت گرفت .برای روشصهای با نظارت، نتایج تست اعتبارسنجی با روش ماشین بردار پشتیبان، جنگل تصادفی و تجزیه تشخیصی مولفهصهای اصلی برای چهار منطقه مختلف از دو اکوتیپ به ترتیب صحت کلاسه بندی ۹۲ درصد، ۷۶ درصد و ۶۵ درصد را نشان داد که حاکی از این است که با وجود سختی تفکیک جمعیتصهای مناطق مختلف نزدیک به هم از یک اکوتیپ روش ماشین بردار پشتیبان با صحت بالایی نسبت به روشصهای دیگر قادر به تفکیک زیر جمعیتصها بوده و میصتوان دام های مناطق مختلف و نسبت های دام های متعلق به هر استان را شناسایی کرد و برای دو اکوتیپ به ترتیب برابر ۹۶ درصد، ۸۰ درصد و ۸۶ درصد بود که نشان دهنده قابلیت تفکیک بهتر دو اکوتیپ با هر سه روش است که در این بین روش ماشین بردار پشتیبان، مجددا بالاترین صحت کلاسه بندی را نشان داد .روشصهای معمول بررسی ساختار جمعیتی وجود اختلاط بین دام های استانصها را تایید کردند و انتساب دام ها به یک نژاد با توجه به فرضی که وجود داشت تایید گردید .روشصهای با نظارت با توجه به اطلاعات پیشین در دسترس گروه بندی دقیقی از جمعیتصها داشتند و قادر به تفکیک دام های جمعیتصهای استانصهای مختلف هستند و با درصدهایی که به هر کدام از استانصها اختصاص دادند، نسبت اختلاط هر فرد را نشان میصدهند .علاوه بر این، روشصهای با نظارت با پیش بینیصهایی که برای کلاسه بندی هر فرد انجام میصدهند میصتوانند در کنترل کیفیت و کاربردهای ژنتیکی کارآمد بوده و بدست آوردن ساختار جمعیتی دقیق با صحت بالا با روشصهای توانمندی مثل روشصهای یادگیری ماشین، میصتواند در شرایط گوناگون مثل مطالعات ارتباطی و تکاملی مفید واقع شود .
New large-scale genotyping and sequencing technologies, e.g. SNP chip or next generation sequencing, are useful tools for the study of genetic livestock diversity and population structure. The purpose of this research was to investigate the structure and stratification buffalo populations in different regions of the two ecotypes Azari and North using data SNPChip 90K using clustering k-means, pam and som and common methods to investigate the population structure such as principal component analysis, scaling multi-dimensional, Admixture, and supervised methods such as support vector machines, random forests and discriminant analysis to test the classification accuracy of buffalo according to two types labeling based on ecotypes (Azari and North) and provinces (4 provinces) of Iran using data SNP chip 90K. A total of 258 buffalos were sampled and genotyped. The optimal number of clusters based on clustering methods such as k-means, pam and hierarchical and unsupervised neural networks (self-organizing map), with assessment indices Dunn, silhouette with considered k from 1 to 6, showed that k=2 was better than other k number. According to the numeric value of the indices, especially silhouette index in determining the number k, clustering has been not good. Plots of PCA and MDS showed that there are the overlap between provinces and individual of guilan and Ardabil provinces are little pure. Admixture analysis showed admixture between population and k=3 have lowest cross validation error. Results of Admixture and Multidimensional Scaling (MDS) showed the close relationship between animals of different provinces. DAPC analysis in finding the optimal number of clusters using BIC index, k=1 showed the lowest BIC. DAPC analysis in clustering with the first two components showed same result with PCA and MDS methods. The results of cross validation to retain optimal pc, the first 60 pc showed the lowest MSE and these numbers of pc with 3 stored discriminate function showed a clear picture of the genetic structure of populations. DAPC in comparison providing assignment of individuals to groups, a visual assessment of between-population differentiation and provide a clear picture of the population structure. The results of overall accuracy with 10-fold cross validation to determine accuracy of classifying different provinces with SVM and Random Forest and DAPC methods were 92 , 76 and 65 respectively. Two ecotypes with higher accuracy of 96 , 80 and 86 were separable with SVM, RF and DAPC methods, while the Random Forest method showed low accuracy of 80 .When prior knowledge is available, despite the difficulty of identifying individuals of provinces close to each other, SVM method shows high accuracy in comparison with RF and DAPC methods in distinguish the individuals of different provinces and generally these methods are able to assign animals to their herds with more accuracy. Conventional methods to study the population structure confirmed admixture between herds of provinces and assigning animals to one breed based on the assumption was confirmed. The correct identification of population stratification is an important previous step in livestock GWAS and evolution studies that can be overcome with non-parametric method SVM and Random Forest and DAPC