یک رویکرد نیمه نظارتی جدید برای دستهبندی چندکلاسی دادههای نامتعادل با به کارگیری پیشبینی انطباقی
First Statement of Responsibility
زینب کاویانی
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
مهندسی برق وکامپیوتر
Date of Publication, Distribution, etc.
۱۴۰۰
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۷۶ص.
Accompanying Material
سی دی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
مهندسی کامپیوتر
Date of degree
۱۴۰۰/۰۶/۲۰
SUMMARY OR ABSTRACT
Text of Note
الگوریتمهای یادگیری نظارتی در شرایطی که به میزان کافی دادهی برچسبدار در دسترس باشد عملکرد قابل قبولی دارند؛ اما در مسائل دنیای واقعی فراهم کردن برچسب برای دادههای تولید شده نیازمند صرف وقت، هزینه و نیروی انسانی است. الگوریتمهای یادگیری نیمه نظارتی هم از دادههای برچسبدار و هم از دادههای بدون برچسب برای یادگیری بهره میبرند و از این نظر کمبود دادههای برچسبدار را جبران میکنند؛ اما این مورد تنها چالش موجود برای دستهبندی دادهها نیست. چالش مهم دیگری که الگوریتمهای یادگیری با آن مواجه هستند عدم تعادل در دادههای واقعی است. به این معنا که تعداد دادهها در یک یا چند کلاس بسیار بیشتر از تعداد دادهها در کلاس(های) دیگر است. از آنجایی که در الگوریتمهای متعارف یادگیری، دادهها متعادل در نظر گرفته میشوند؛ مدل یادگیری به دست آمده عملکرد مناسبی در پیشبینی کلاس اقلیت ندارد . این در حالی است که در اغلب مسائل، کلاس اقلیت از اهمیت بیشتری برخوردار است؛ مانند مسئلهی تشخیص کلاهبرداری، تشخیص انواع بیماریها، تشخیص نفوذ در شبکه و موارد بسیار دیگر.الگوریتم self-training یکی از مهمترین الگوریتمهای یادگیری نیمه نظارتی است. این الگوریتم یک روش تکرار شونده است که از برچسبهایی که خودش تولید میکند برای آموزش مجدد مدل استفاده میکند. چالش اصلی در این الگوریتم انتخاب دادههایی است که برچسب پیشبینی شده برای آنها از درصد اطمینان بالایی برخوردار باشند. در این پایاننامه4 روش پیشنهاد شده است که درآنها از پیشبینی انطباقی برای بالا بردن درصد اطمینان و بازمتعادل سازی دادهها و تکنیک ماندرین برای مقابله با عدم تعادل دادهها استفاده شده است. در پایان نیز نتایج الگوریتمهای پیشنهادی با دو روش دیگر مقایسه شده است.
Text of Note
Supervised learning algorithms perform reasonably well in classification when sufficient labeled data is available; But in real-world issues, providing a label for the data generated requires time, money, and human resources (domain experts). Semi-supervised learning algorithms use both labeled and unlabeled data in learning. So they can alleviate the lack of labeled data, But it is not the only challenge in data classification. Another major challenge that learning algorithms face is data imbalance, especially in real-world issues. Data imbalance means that the number of data in one or more classes is much more than in other classes. In conventional learning algorithms, data is considered balanced, so the resulting learning model is biased toward the majority class(es) and does not perform well in predicting minority class(es). However, in most cases, the minority class(es) is more important. Fraud detection, medical diagnoses, and intrusion detection are some of the issues that the minority class is more interesting. The self-training algorithm is one of the most important semi-supervised learning algorithms. This algorithm is an iterative method that wraps around a base classifier, uses self-generated pseudo-labels to retrain the model. The main challenge in this algorithm is to select the pseudo-labels that are highly confident. In this thesis, we proposed four methods that use conformal prediction along with self-training to increase reliability. In addition, we use class rebalancing, and the Mondarin technique to deal with data imbalance. Finally, the results of the proposed algorithms are compared with two other methods.
OTHER VARIANT TITLES
Variant Title
A New Semi-supervised Learning Approach for Multi-class Imbalanced data Classification Using Conformal Prediction