ارائه روشی برای بهبود خوشهبندی مقید با کمک یادگیری فعال و عمیق
رحیم حضرتقلی زاده
برق و کامپیوتر
۱۴۰۱
۱۵۴ص.
سی دی
دکتری
مهندسی فناوری اطلاعات گرایش سیستم های چند رسانه ای
۱۴۰۱/۰۶/۱۹
با گسترش روزافزون دادههای دیجیتال، انواع خوشهبندی به خاطر در دسترس نبودن برچسب دادهها برای استخراج دانش، همزمان رو به رشد میباشد. در این میان امکان دارد مقداری اطلاعات جانبی از راههای مختلف مانند پرسش از منابع خبره بتوان بدست آورد. با داشتن این اطلاعات میتوان نوعی یادگیری نیمهنظارتی توسعه داد. به طور معمول استفاده از اطلاعات جانبی سودمند، باعث افزایش دقت و شخصیسازی خوشهبندی میشود. امروزه اطلاعات جانبی مانند زوج محدودیتهای باید-پیوند و نفی-پیوند به خاطر سادگی مورد توجه قرار گرفته و الگوریتمهای مختلفی به نام خوشهبندی مقید یا خوشهبندی با زوج محدویتها توسعه یافته است. علیرغم توسعه خوشهبندیهای مقید و مزایای آن، مشکل انتخاب موثر و با اطمینان نمونه داده سودمند و مواجهه با دادههای حجیم و ابعاد بالا مشهود است. هر چند برای رفع این مشکلات از یادگیری فعال و روشهای کاهش ابعاد متداول استفاده میشود اما به نظر میرسد، طبق مطالعات موجود، در مسائل دنیای واقعی با چالشهایی اساسی همراه است. یادگیری فعال باعث میشود به جای انتخاب تصادفی نمونه داده سودمند، دادههایی با بیشترین عدم قطعیت انتخاب شده و از منابع خبره برای برچسب نمونه داده یا تعیین نوع محدودیت زوج داده پرسش شود لذا باعث افزایش دقت و کاهش هزینه میشود. هدف تحقیق حاضر پیشنهاد یک چارچوب یکپارچه برای رفع چالشهای اساسی استخراج شده در ارتباط با دو مشکل مذکور میباشد به طوریکه همزمان با رفع این چالشها بهبود چشمگیر در خوشهبندی مقید حاصل شود. تحقیق حاضر شامل دو فاز مستقل از یکدیگر میباشد به طوریکه فاز اول تلاشی برای رفع چالشهای حوزه یادگیری فعال میباشد هر چند فاز دوم به صورت یکپارچه و همزمان با استفاده غیر مستقیم از ساختار و یافتههای فاز اول به رفع چالشهای موجود در هر دو حوزه میپردازد. فاز اول، یادگیری فعال دو مرحلهای ترکیبی با منطقه عدم قطعیت را پیشنهاد میکند و فاز دوم چارچوب یکپارچه برای کاهش ابعاد موثر با یادگیری عمیق و همزمان یادگیری فعال با دو منبع و دو اصل را پیشنهاد میکند هر چند تا جایی که میدانیم چنین چارچوبی در ادبیات مطرح نشده است. آزمایشهای گسترده برروی مجموعه دادههای مختلف متون و تصاویر با معیارهای مشهور ارزیابی خوشهبندی، برتری چارچوب پیشنهادی را در مقایسه با روشهای مشابه نشان میدهد.
With the ever-increasing expansion of digital data, types of clustering are simultaneously growing due to the unavailability of data labels for knowledge extraction. In the meantime, it is possible to obtain some side information in different ways, such as asking expert sources. With this information, a kind of semi-supervised learning can be developed. Usually, the use of informative side information increases the accuracy and personalization of clustering. Nowadays, side information such as must-link and cannot-link constraints are considered for their simplicity and various algorithms called constrained clustering with pairswise constraint have been developed. Despite the development of constrained clustering and its advantages, the problem of effective selection of informative data samples and dealing with voluminous and high-dimensional data is evident. Although active learning and common dimension reduction methods are used to solve these problems, it seems that, according to existing studies, it is associated with fundamental challenges in real-world problems. Active learning causes data with the highest uncertainty to be selected instead of random selection of the informative data sample, and expert sources are asked for the data sample label or determining the type of data pair constraints, so it increases accuracy and reduces cost. The purpose of the present research is to propose an integrated framework to solve the basic challenges extracted in connection with the two mentioned problems, so that, at the same time as these challenges are solved, a significant improvement in constrained clustering can be achieved. The current research consists of two independent phases, so that the first phase is an attempt to solve the challenges of the active learning field, although the second phase is an integrated and simultaneous indirect use of the structure and findings of the first phase. The first phase proposes two-stage active learning combined with uncertainty region, and the second phase proposes an integrated framework for effective dimension reduction with deep learning and (simultaneously) active learning with two sources. To the best of our knowledge, no similar study has been conducted. Extensive experiments on different datasets of texts and images with well-known clustering evaluation criteria show the superiority of the proposed framework compared to similar methods.
A Method to Improve Constrained Clustering with Deep and Active Learning