تحلیل داده های زیست پیچیده با استفاده از محاسبه همولوژی پایا
Analysis of complex biological data via computation of persistent homology
/امیر حسن پور زرقانی
: علوم ریاضی
، ۱۳۹۹
، عباسپور
۷۸ص
چاپی - الکترونیکی
کارشناسی ارشد
علوم کامپیوتر گرایش سیستم های هوشمند
۱۳۹۹/۰۶/۲۷
تبریز
تحلیل وپولوژی داده یاTDA حوزه ای جدید و به سرعت در حال رشد از علوم داده نوین است که در آن از ابزارهای توپولوژی ،هندس و جبری برای استخراج ویژگ های ساختاری از داده های بسیار پیچیده و انبوه با ابعاد بالا که معمولا ناقص و دارای نویز هستد ، استفاده م کند .انگیزه ابتدایی برای مطالعه این روش بررس داده ها از لحاظ شل آن ها بوده است که با شاخه های انتزاع ریاضیات محض از قبیل همولوژی، کوهمولوژی و توپولوژی جبری گره خورده است .در این روش فضای توپولوژی حاصل از داده های ابری م تواند به آن تعبیری از فاصله، پیوستگ و همبندی دهد و به این ترتیب الوها و روابط بین داده ها سریع کشف گردد و نیز به عبارت با استفاده از این روش م توان اطلاعات اصل را از نمونه یا اطلاعات اتفاق که هنگام نمونه برداری از دست رفته یا بهم ریخته، به دست آورد .در این پایان نامه بعد از معرف ابزارهای ریاض لازم، همولوژی پایا را به عنوان ی از ابزارهای اصلTDA برای پروتئین ها محاسبه م کنیم و با استخراج ویژگ های مناسب، به وسیله یادگیری عمیق ساختار دوم پروتئین ها را پیشویی م کنیم .میزان دقت روش پیشنهادی ما حداقل ده درصد بیشتر از میزان دقت روش های پیشین می باشد
Topological data analysis (TDA) is a new and rapidly growing field of modern data science which uses topological, geometric and algebraic tools to extract structural features fom very complex and large-scale data that are usually incomplete and noisy. The primary motivation for studying this method was to study the shape of data, which has been connected to branches of pure mathematics such as homology, cohomology and algebraic topology. In this method, the topological space obtained fom cloud data can give it an interpretation of distance, continuity and connectedness so patterns and relationships between the data are discovered quickly. In other words, using this method, the original information can be obtained fom the sample or accidental information that was lost or messed up during sampling. In this thesis, afer introducing the necessary mathematical concepts, we compute persistent homology (as one of the main tools of TDA) for proteins and by extracting appropriate features, by deep learning, we predict the protein secondary structure
Analysis of complex biological data via computation of persistent homology