عنوان

یک رویکرد نیمه نظارتی جدید برای دسته‌بندی چندکلاسی داده‌های نامتعادل با به کارگیری پیش‌بینی انطباقی

پدید آورنده

زینب کاویانی,‏کاویانی

موضوع

رده

کتابخانه

University of Tabriz Library, Documentation and Publication Center

محل استقرار

استان: East Azarbaijan ـ شهر: Tabriz

تماس با کتابخانه : 04133294120-04133294118

NATIONAL BIBLIOGRAPHY NUMBER

Number

پ۲۵۶۵۲

LANGUAGE OF THE ITEM

.Language of Text, Soundtrack etc

per

TITLE AND STATEMENT OF RESPONSIBILITY

Title Proper

یک رویکرد نیمه نظارتی جدید برای دسته‌بندی چندکلاسی داده‌های نامتعادل با به کارگیری پیش‌بینی انطباقی

First Statement of Responsibility

زینب کاویانی

.PUBLICATION, DISTRIBUTION, ETC

Name of Publisher, Distributor, etc.

مهندسی برق وکامپیوتر

Date of Publication, Distribution, etc.

۱۴۰۰

PHYSICAL DESCRIPTION

Specific Material Designation and Extent of Item

۷۶ص.

Accompanying Material

سی دی

DISSERTATION (THESIS) NOTE

Dissertation or thesis details and type of degree

کارشناسی ارشد

Discipline of degree

مهندسی کامپیوتر

Date of degree

۱۴۰۰/۰۶/۲۰

SUMMARY OR ABSTRACT

Text of Note

الگوریتم‌های یادگیری نظارتی در شرایطی که به میزان کافی داده‌ی برچسب‌دار در دسترس باشد عمل‌کرد قابل قبولی دارند؛ اما در مسائل دنیای واقعی فراهم کردن برچسب برای داده‌های تولید شده نیازمند صرف وقت، هزینه و نیروی انسانی است. الگوریتم‌های یادگیری نیمه نظارتی هم از داده‌های برچسب‌دار و هم از داده‌های بدون برچسب برای یادگیری بهره می‌برند و از این نظر کمبود داده‌های برچسب‌دار را جبران می‌کنند؛ اما این مورد تنها چالش موجود برای دسته‌بندی داده‌ها نیست. چالش مهم دیگری که الگوریتم‌های یادگیری با آن مواجه هستند عدم تعادل در داده‌های واقعی است. به این معنا که تعداد داده‌ها در یک یا چند کلاس بسیار بیشتر از تعداد داده‌ها در کلاس‌(های) دیگر است. از آن‌جایی که در الگوریتم‌های متعارف یادگیری، داده‌ها متعادل در نظر گرفته می‌شوند؛ مدل یادگیری به دست آمده عمل‌کرد مناسبی در پیش‌بینی کلاس اقلیت ندارد . این در حالی است که در اغلب مسائل، کلاس اقلیت از اهمیت بیشتری برخوردار است؛ مانند مسئله‌ی تشخیص کلاهبرداری، تشخیص انواع بیماری‌ها، تشخیص نفوذ در شبکه و موارد بسیار دیگر.الگوریتم self-training یکی از مهم‌ترین الگوریتم‌های یادگیری نیمه‌ نظارتی است. این الگوریتم یک روش تکرار شونده است که از برچسب‌هایی که خودش تولید می‌کند برای آموزش مجدد مدل استفاده می‌کند. چالش اصلی در این الگوریتم انتخاب داده‌هایی است که برچسب پیش‌بینی شده برای آن‌ها از درصد اطمینان بالایی برخوردار باشند. در این پایان‌نامه4 روش پیشنهاد شده است که درآن‌ها از پیش‌بینی انطباقی برای بالا بردن درصد اطمینان و بازمتعادل سازی داده‌ها و تکنیک ماندرین برای مقابله با عدم تعادل داده‌ها استفاده شده است. در پایان نیز نتایج الگوریتم‌های پیشنهادی با دو روش دیگر مقایسه شده است.

Text of Note

Supervised learning algorithms perform reasonably well in classification when sufficient labeled data is available; But in real-world issues, providing a label for the data generated requires time, money, and human resources (domain experts). Semi-supervised learning algorithms use both labeled and unlabeled data in learning. So they can alleviate the lack of labeled data, But it is not the only challenge in data classification. Another major challenge that learning algorithms face is data imbalance, especially in real-world issues. Data imbalance means that the number of data in one or more classes is much more than in other classes. In conventional learning algorithms, data is considered balanced, so the resulting learning model is biased toward the majority class(es) and does not perform well in predicting minority class(es). However, in most cases, the minority class(es) is more important. Fraud detection, medical diagnoses, and intrusion detection are some of the issues that the minority class is more interesting. The self-training algorithm is one of the most important semi-supervised learning algorithms. This algorithm is an iterative method that wraps around a base classifier, uses self-generated pseudo-labels to retrain the model. The main challenge in this algorithm is to select the pseudo-labels that are highly confident. In this thesis, we proposed four methods that use conformal prediction along with self-training to increase reliability. In addition, we use class rebalancing, and the Mondarin technique to deal with data imbalance. Finally, the results of the proposed algorithms are compared with two other methods.

OTHER VARIANT TITLES

Variant Title

A New Semi-supervised Learning Approach for Multi-class Imbalanced data Classification Using Conformal Prediction

PERSONAL NAME - PRIMARY RESPONSIBILITY

Entry Element

‏کاویانی

Part of Name Other than Entry Element

‏ زینب

Relator Code

تهيه کننده

PERSONAL NAME - SECONDARY RESPONSIBILITY

Entry Element

تنها

Entry Element

زلفی

Part of Name Other than Entry Element

‏ جعفر

Part of Name Other than Entry Element

‏ مینا

Dates

استاد راهنما

Dates

استاد مشاور

CORPORATE BODY NAME - SECONDARY RESPONSIBILITY

Entry Element

‏ تبریز

عنوان یک رویکرد نیمه نظارتی جدید برای دسته‌بندی چندکلاسی داده‌های نامتعادل با به کارگیری پیش‌بینی انطباقی

پدید آورنده زینب کاویانی,‏کاویانی

موضوع

رده

کتابخانه University of Tabriz Library, Documentation and Publication Center

محل استقرار استان: East Azarbaijan ـ شهر: Tabriz

NATIONAL BIBLIOGRAPHY NUMBER

LANGUAGE OF THE ITEM

TITLE AND STATEMENT OF RESPONSIBILITY

.PUBLICATION, DISTRIBUTION, ETC

PHYSICAL DESCRIPTION

DISSERTATION (THESIS) NOTE

SUMMARY OR ABSTRACT

OTHER VARIANT TITLES

PERSONAL NAME - PRIMARY RESPONSIBILITY

PERSONAL NAME - SECONDARY RESPONSIBILITY

CORPORATE BODY NAME - SECONDARY RESPONSIBILITY

عنوان

یک رویکرد نیمه نظارتی جدید برای دسته‌بندی چندکلاسی داده‌های نامتعادل با به کارگیری پیش‌بینی انطباقی

پدید آورنده

زینب کاویانی,‏کاویانی

کتابخانه

University of Tabriz Library, Documentation and Publication Center

محل استقرار

استان: East Azarbaijan ـ شهر: Tabriz