Arabic text summarization by mBART transformers on AraNEWSRoom corpus
نام عام مواد
Dissertation
نام نخستين پديدآور
Peshang Jaafar Dhahir
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
Electrical and Computer Engineering
تاریخ نشرو بخش و غیره
1401
مشخصات ظاهری
نام خاص و کميت اثر
67p.
ساير جزييات
cd
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
M.S.
نظم درجات
Computer Engineering – Software Engineering
زمان اعطا مدرک
1401/10/27
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
Automatic text summarization is the process of generating a coherent, fluent, and meaningful summary by covering the most important information as much as possible. This task can be done by two approaches, the first one is extractive summarization, it’s based on the extraction of the core and most informative sentences from the original text. On the other hand, abstractive summarization is generating new sentences with a linguistic structure that might be different and these sentences might not exist in the original text, progress in abstractive summarization for Arabic, the fifth most spoken language globally, is still in baby shoes. There is a lack of research on summarizing Arabic texts. This is due to several reasons. In this study due to one of the reasons which the lack of a rich and large-scale dataset based on size and data, we propose our own made Dataset (AraNEWSRoom) which includes (521,168) records of news articles that have collected from multiple domains and countries from different geographic locations and dialects. The dialect of most of the NEWS is standard Arabic form. the preprocessing steps of the data are two phases and for the summarization model. we fine-tuned the encode-decoder multilingual BART (mBART) transformer for abstractive summarization for Arabic, and produced (AraBARTSum). The results of our experiments illustrate that our model (AraBARTSum) yields the best performance, compared with our base-paper model which is AraBERT, in producing acceptable quality candidate summaries. The performance of the model was assessed using ROUGE metrics, and got a state-of-the-art result, and they were also manually evaluated by humans for fluency and adequacy, The human evaluation showed promising results.
متن يادداشت
خلاصهسازی خودکار متن، فرآیند تولید خلاصهای منسجم، روان و معنادار با پوشش دادن مهمترین اطلاعات تا حد امکان است.این کار را می توان با دو روش انجام داد، روش اول خلاصه سازی بر اساس استخراج هسته اصلی متن و مهمترین جملات از متن اصلی است. این روش خلاصه سازی استخراجی نام دارد. از سوی دیگر، خلاصهسازی انتزاعی، جملات جدیدی با ساختار زبانی ایجاد میکند که ممکن است متفاوت باشد وممکن است این جملات در متن اصلی وجود نداشته باشد، پیشرفت در خلاصهسازی انتزاعی برای عربی، پنجمین زبان رایج در سطح جهان، هنوز نوپا است وبنا به دلایل مختلف در مورد آن هنوز تحقیقیات کافی صورت نگرفته است. در این تحقیق به دلیل عدم وجود مجموعه داده های غنی و بزرگ بر اساس اندازه و داده ها، مجموعه داده های ساخته شده خودمان (AraNEWSRoom) را پیشنهاد می کنیم که شامل (521168) رکورد از مقالات خبری است که از دامنه های مختلف جمع آوری شده است. همچنین شامل کشورهای کوناگون و گویش های مختلف می باشد. گویش اخبار اکثرا به صورت گویش استاندارد می باشد. مراحل پیش پردازش داده ها دو مرحله ای و برای مدل خلاصه سازی است. ما ترانسفورماتور چندزبانه بارت (mBART) رمزگشا را برای خلاصهسازی انتزاعی برای عربی تنظیم کردیم و (AraBARTSum) را تولید کردیم. نتایج آزمایشها نشان میدهد که مدل ما (AraBARTSum) بهترین عملکرد را در مقایسه با مدل کاغذ پایه ( AraBERT) است، در تولید خلاصههای داوطلب با کیفیت قابل قبول دارد. عملکرد مدل با استفاده از معیارهای ROUGE مورد ارزیابی قرار گرفت وبه یک نتیجه پیشرفته دست یافت وهمچنین به صورت دستی توسط انسان از نظر روانی و کفایت ارزیابی شد، ارزیابی انسانی نتایج امیدوارکنندهای را نشان داد.
عنوانهای گونه گون دیگر
عنوان گونه گون
خلاصه سازی متن عربی توسط ترانسفورماتور mBART در مجموعه داده AraNEWSRoom