طبقه بندي مكاتب ادبي با استفاده از تحليل شباهت محتوا
فاطمه عزیزی
ریاضی آمار وعلوم کامپیوتر
۱۴۰۲
۸۷ص.
سی دی
کارشناسی ارشد
علوم کامپیوتر گرایش نظریه سیستم ها
۱۴۰۲/۰۶/۱۴
طبقه¬بندی متون یکی از مسائل زیر مجموعه پردازش زبان طبیعی است. با توجه به رشد چشمگیر اطلاعات متنی و نیاز به استخراج اطلاعات خاص از این انبوه داده طبقه¬بندی متن یکی از روش¬هایی است که دسترسی به محتوای مورد نظر را سرعت می¬بخشد. هنگام دسته¬بندی، معیارهای مختلفی را از جمله سبک نگارنده، موضوع نگارش، رسمی یا غیررسمی بودن نوشته و یا سبک ادبی متون می¬تواند به عنوان معیار تمایز متون از یکدیگر در نظر گرفته شود که این معیار بر اساس هدف دسته¬بندی مشخص می¬گردد. پیش از پیدایش ابزار¬های یادگیری ماشین و هوش مصنوعی دسته¬بندی اطلاعات توسط انسان صورت می¬گرفت اما امروزه انسان به تنهایی قادر به دسته¬بندی تمام اطلاعات موجود شامل اطلاعات متنی، تصویری، صوتی و غیره نیست زیرا انجام آن کاری زمان¬بر است. از سوی دیگر الگوریتم¬های یادگیری ماشین و یادگیری عمیق راهکارهای مناسبی برای مسائل طبقه¬بندی ارائه می¬دهند که با به کارگیری آن¬ها می¬توان به دقت و صحت مطلوبی برای مسائل طبقه¬بندی دست یافت. استفاده از ابزارهای یادگیری مصنوعی نه¬تنها دقت و سرعت بیش بیش¬تری را به همراه دارد بلکه نیاز به نیروی انسانی را کاهش داده و بدین ترتیب خطای انسانی نیز کاهش می¬یابد. یکی از مزایای استفاده از این روش¬ها این هست که هرچقدر داده بیش¬تر باشد یادگیری مدل¬ها و در نتیجه عملکرد آن¬ها بهتر خواهد بود که این ویژگی متناسب با نیاز روز یعنی افزایش چشمگیر و همه¬روزه اطلاعات است. درنتیجه دسترسی به اطلاعات طبقه¬بندی شده تجربه کاربری بهتری را فراهم نموده و از اتلاف زمان جلوگیری می¬کند. بدین منظور در این پایان¬نامه، از میان جنبش¬های ادبی موجود پنج مکتب ادبی که دارای فاصله تاریخی مناسب بوده است انتخاب شده و یک مساله طبقه¬بندی چندکلاسی مورد بررسی قرار گرفت. برای حل این مساله از روش¬های یادگیری ماشین مانند SVM و GNB و نیز یک مدل یادگیری عمیق پیاده¬سازی شده با لایه توجه استفاده شده¬است. ارزیابی نتایج حاصل از پیاده¬سازی در این پایان¬نامه نشان داد مدل یادگیری عمیق عملکرد بهتری نسبت به مدل¬های یادگیری ماشین دارد. همچنین از مقایسه نتایج حاصل از دو مدل یادگیری ماشین دریافتیم مدل SVM در طبقه¬بندی عملکرد بهتری دارد.
Abstract: Classification of texts is one of the problems of natural language processing. Considering the significant growth of textual information and the need to extract specific information from this massive data, text classification is one of the methods that speeds up access to the desired content. Categorizing textual data, various criteria such as author's style, topic of writing, formality or informality or the literary style of the text can be considered to distinguish different texts from each other, and these criteria are determined based on the purpose of classification. Before the emergence of machine learning tools and artificial intelligence, information was categorized by humans, but today, human is not able to categorize all available information, including textual, visual, audio, etc. as it is a time-consuming task. On the other hand, machine learning and deep learning algorithms provide efficiet solutions for classification problems, which can be used to achieve optimal accuracy and precision. The use of artificial learning tools not only brings more accuracy and speed, but also reduces the need for human agents and thus human error is also reduced. One of the advantages of using these methods is that the more data there is, the learning of the models and their performance will be better, which is in line with the needs of the day, the significant and daily increase of information. As a result, accessing classified information provides a better user experience and avoids wasting time. In this thesis, among the existing literary movements, five literary schools with suitable historical distance were selected and a multi-class classification problem was investigated. To solve this problem, we implemented machine learning methods such as SVM and GNB as well as a deep learning model with an attention layer. The evaluation of the results has shown that the deep learning model performs better than the machine learning models. Also, from the comparison of the results of two machine learning models used in this study, we found that the SVM model has a better performance in classification.
Classification of literary school Using Similarity Analysis of Content