Self-trainig semi-supervised classification based on Quantum computing
/فرشته ودادی
: مهندسی برق و کامپیوتر
، ۱۳۹۹
، میرزائی
۷۳ص
چاپی - الکترونیکی
کارشناسی ارشد
مهندسی کامپیوتر - گرایش رایانش امن
۱۳۹۹/۰۶/۳۰
تبریز
امروزه در دنیای واقعی حجم عظیمی از دادهها، بدون برچسب و مقدار اندکی از آنها برچسبدار هستند .از این رو برچسبدار کردن دادههای بدون برچسب یکی از چالشهای حائز اهمیت در بسیاری از کاربردهای عملی بهشمار میرود .یادگیری نیمهنظارتی یکی از روشهای یادگیری ماشین است که در آن میتوان به صورت همزمان هم از دادههای بدون برچسب و هم از دادههای برچسبدار برای حل این مشکل استفاده کرد .یکی از روشهای یادگیری نیمهنظارتی، روش دستهبندی نیمهنظارتی خودآموز میباشد به این صورت که ابتدا دستهبند توسط دادههای برچسبدار آموزش دیده و سپس از پیشبینیهای خود برای آموزش خود استفاده میکند .تاکنون الگوریتمهای زیادی در رابطه با آشکار کردن ساختار فضای داده که یکی از گامهای تأثیرگذار در روش دستهبندی خودآموز نیمهنظارتی بهشمار میرود، ارائه شدهاند .بهعنوان یکی از این الگوریتمها میتوان به الگوریتم دستهبندی خودآموز نیمهنظارتی مبتنی بر رئوس متراکم دادهها (STDP) اشاره کرد که با محاسبهی دو کمیت چگالی محلی و دلتا) فاصله هر داده از دادهای که چگالی محلیاش بیشتر از خودش باشد (ساختار فضای داده را بهگونهای شکل میدهد که هر داده به نزدیکترین دادهای که چگالی محلی آن از خودش بیشتر است، اشاره میکند و سپس از ساختار دادهی بهدست آمده در فرآیند خودآموز استفاده میکند اما محدودیت این الگوریتم در محاسبهی پارامتری به نام فاصلهی قطع است که در تعیین همسایگی بهکار میرود .در این پایاننامه قصد داریم برای مشخص کردن ساختار فضای داده، از معادلهی مبتنیبر فاصلهی شرودینگر که در الگوریتم نوین خوشهبندی کوانتومی برای تشخیص سرخوشهها به کار رفته است، به همراه روش دستهبندی خودآموز نیمهنظارتی استفاده کنیم و با بهکارگیری همسایههای طبیعی نقاط، ساختار فضای داده را به گونهای شکل دهیم که دقت بهتری در دستهبندی نقاط بدون برچسب نسبت به الگوریتم مقایسهای داشته باشد و از توانایی شناسایی نقاط دور افتاده برخوردار باشد .همچنین از پارامترهای محاسبهای اولیه، نحوهی توزیع دادهها و میزان دادههای برچسبدار مستقل بوده و تاثیرپذیری کمتری نسبت به دادههای نویزی داشته باشد .در پایان، الگوریتم پیشنهادی خود را بر روی مجموعه دادههای واقعی انتخاب شده از واحد دادهکاوی دانشگاه UCI و مجموعه دادههای مصنوعی اجرا میکنیم و عملکرد آن را با الگوریتم دستهبندی خودآموز نیمهنظارتی مبتنی بر رئوس متراکم دادهها مقایسه کرده و تفاوتهایشان را مورد بررسی قرار میدهیم
Nowadays, the massive amount of data is unlabeled, and only a few are labeled. Labeling the unlabeled data accounts for one of the challenging issues in real-world applications. Semi-supervised learning is one of the machine learning methods to simultaneously use both labeled and unlabeled data to overcome the labeling challenges. Thereby, one of the crucial semi-supervised learning methods is the semi-supervised self training classification, in which the classifier is trained firstly by labeled data and then by own predictions. Several algorithms have been presented to reveal the structure of the data space. This step is considered as the cornerstone in the semi-supervised self training classification. One of these algorithms is known as semi-supervised self training classification based on density peaks of data. This algorithm constructs the structure of the data space by computing two parameters, the local density, and delta, such that each data points to the nearest data with more local density than its own. Then, the algorithm makes use of the resulting data structure during the self training process but the constraint of this method is in computing cut-off distance parameter which is used in determining the neighborhood. In this research, we exploit the equations derived from the Schrodinger distance-based equation used in the new quantum-based clustering algorithm to detect the head clusters, accompanying a semi-supervised self training method to determine the structure of the data space. By using natural neighbors of the data points, we construct the data space structure to have better accuracy in classifying unlabeled data points than the semi-supervised self training classification algorithms based on the density peaks of data and to have capability to detect ouliers, also be independent of initial computational parameters, data points distribution in data space and ratio of the labeled data points and minimize the effect of noisy data points on the accuracy rate. Finally, we implement the proposed algorithm on real datasets chosen from the UCI data-mining unit and artificial datasets also we compare our algorithm's performance with the semi-supervised self training classification algorithm based on the density peaks of data, furthermore we investigate and report their discrepancies
Self-trainig semi-supervised classification based on Quantum computing