رویکردی جدید برای خوشهبندی جریان دادههای متن فارسی بر اساس روشهای مبتنی بر چگالی
عنوان اصلي به زبان ديگر
Novel Density-Based Approach to Clustering Persian Text Data Streams A
نام نخستين پديدآور
/فرید فرهودی
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: مهندسی برق و کامپیوتر
تاریخ نشرو بخش و غیره
، ۱۳۹۸
نام توليد کننده
، راشدی
مشخصات ظاهری
نام خاص و کميت اثر
۶۹ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی - الکترونیکی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
مهندسی کامپیوتر گرایش نرمافزار
زمان اعطا مدرک
۱۳۹۸/۰۶/۲۵
کسي که مدرک را اعطا کرده
تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
خوشهبندی یکی از روشهای تحلیل دادههای بدون برچسب کلاس بهمنظور استخراج الگوها و اطلاعات مفید از آنها است که در سیستمهای گوناگون اطلاعاتی کاربرد فراوان دارد .از سوی دیگر تولید انبوه و بدون توقف دادههای مختلف در بستر اینترنت و سیستمهای نرمافزاری از قبیل برنامههای کاربردی و نرمافزارهای سازمانی، باعث مطرح شدن مفهومی جدید به نام جریان دادهها شده است .جریان دادهها به دنبالهای بینهایت و بدون مرز از دادهها گفته میشود که در طول زمان تولید میشوند .روشهای سنتی خوشهبندی به دلیل محدودیتهایی مانند نیاز به دسترسی به کل دادهها به طور ایستا و دسترسی چندباره به هر داده در طول فرآیند خوشهبندی، قادر به خوشهبندی این نوع از دادهها نیستند .علاوه بر این، اهمیت مسئلهی پردازش دادههای متنی در علوم دادهکاوی و یادگیری ماشین و کمبود تحقیقات انجامشده بر روی دادههای متنی در زبان فارسی در این حوزه، این انگیزه را در ما ایجاد کرده است تا در پایاننامهی حاضر، بر اساس روشهای مبتنی بر چگالی میکرو خوشهها، رویکردی جدید برای خوشهبندی جریان دادههای متنی در زبان فارسی معرفی کنیم تا علاوه بر انجام عمل خوشهبندی برای تحلیل و استخراج اطلاعات مفید، به چالشهای مهمی مانند تغییرات مفهومی پاسخ مناسب بدهد .روش پیشنهادی در این پایاننامه که از چارچوب دومرحلهای آنلاین-آفلاین بهره میبرد، در مرحلهی آنلاین جریان دادههای متنی را بهصورت افزایشی به مدل خوشهبندی وارد میکند و اطلاعات مورد نیاز دادهها برای انجام عمل خوشهبندی را در قالب میکرو خوشهها نگهداری میکند .مدیریت میکرو خوشهها از قبیل کاهش وزن، حذف، ادغام و کنترل تعداد میکرو خوشهها نیز در این مرحله انجام میشود .در مرحلهی آفلاین، در هر لحظه از زمان با بهکارگیری یک الگوریتم سنتی مبتنی بر چگالی بر روی میکرو خوشههای موجود در مدل خوشهبندی، خوشههای نهایی تشکیل میشوند .نتایج حاصل از مقایسهی روش پیشنهادی با سایر روشهای مشابه نشان میدهد که رویکرد معرفیشده قادر به رقابت با سایر روشهای مشابه بوده و در اکثر مواقع عملکرد بهتری نسبت به روشهای مشابه داشته است
متن يادداشت
Clustering or cluster analysis is one of the important techniques in machine learning that is used to group a set of objects or data points in such a way that data in the same cluster are more similar to each other than those in other groups. Besides, non-stop production of the huge amount of data in the internet platform and software systems like applications and organizational systems brings in a new concept which is called data stream. Data stream is an infinite sequence of elements that are generated along the time and therefore batch clustering algorithms are not capable of grouping this kind of data. In addition, the importance of NLP tasks in data analysis science and the lack of such researches in Persian language, motivated us to study on this field and in this thesis, we proposed a novel approach to address clustering Persian text data stream based on density micro-based methods to do the clustering job along with answering vital challenges like concept drift. Our proposed method uses an online-offline framework. In the online phase, text data streams are incrementally entered into the clustering model and micro clusters are generated. All tasks related to micro clusters management such as weight fading, deleting, merging, and limiting the number of micro clusters are being handled in this phase. In the offline phase by applying a batch density-based clustering algorithm on existing micro clusters, final clusters are generated. Results show that our method can compete with other text stream clustering algorithms and in most cases operates better than similar methods
عنوان اصلی به زبان دیگر
عنوان اصلي به زبان ديگر
Novel Density-Based Approach to Clustering Persian Text Data Streams A
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )