سیستم خلاصهساز خودکار متون فارسی با استفاده از الگوریتم بهینهسازی جنگل
نام نخستين پديدآور
/ساناز ترحیب
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: پردیس
تاریخ نشرو بخش و غیره
، ۱۳۹۵
نام توليد کننده
، میرزائی
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسی ارشد
نظم درجات
مهندسی کامپیوتر گرایش هوش مصنوعی
زمان اعطا مدرک
۱۳۹۵/۱۱/۱۱
کسي که مدرک را اعطا کرده
تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
باتوجه به افزایش حجم مستندات متنی، برای پاسخگویی به نیازهای اطلاعاتی کاربران، تکنیکهای بازیابی اطلاعات به تنهایی کارا نیستند. مطالعه حجم زیاد متون برای کاربران بسیار سخت و زمانگیر است و لذا در اختیارداشتن خلاصهای از مطالب مهم برای آنها، میتواند بسیار مفید باشد .منظور از صخلاصهسازی کوتاه کردن طول ورودی، در حین حفظ نکات مهم آن است .در این پژوهش یک سیستم خودکار خلاصهساز تکسندی متون فارسی ارائه کردیم .نظر به اینکه تولید بهترین ترکیب جملات برای ایجاد خلاصه، جزو مسایلComplete - NPمیباشد و راهحل قطعی و روشنی برای آن وجود ندارد، لذا در این مورد از الگوریتم بهینهسازی جنگل برای یافتن پاسخ استفاده شده است .برای امتیازدهی هر جمله در خبر از پارامترهایIDF- TF، موقعیت جمله، شباهت بهعنوان و تاثیر کلمات ایست استفاده کردیم .برای جلوگیری از ایجاد افزونگی و حضور جملات مشابه در خلاصه، شباهت کسینوسی جملات تولید کننده خلاصه، بهعنوان پارامتر منفی برای جملهی بعدی درنظر گرفته شده است .برای مقایسه عملکرد سیستم خودکار خلاصهساز متون فارسی از روش قدیمی و شناخته شده الگوریتم غذایابی باکتری که پیادهسازی کردهایم استفاده شده است .از معیار ROUGE برای ارزیابی دقت و کیفیت خلاصه تولیدی استفاده شده است .مجموعه داده مورد استفاده، پیکره پاسخ است که توسط دانشگاه فردوسی مشهد گردآوری شده است .به ازاء هر خبر ۵ خلاصه انسانی وجود دارد .این مجموعه داده برای خلاصهسازی تکسندی حاوی ۱۰۰ خبر میباشد .در آزمایشها برای خلاصهسازی با الگوریتم جنگل دقت۳۹/۰ ، یادآوری ۴۸/۰ و معیار ۴۲/۰ Fو در الگوریتم باکتری دقت۳۸/۰ ،یادآوری۵۰/ ۰ و معیار ۴۲/۰ Fبدست آمد
متن يادداشت
Due to the increasingly grouth of text documents, in response to the needs of users to knowledge, Information Retrieval techniques, exclusively are not effective enough. Studying huge volumes of texts is very hard and time consuming for most of users and so possession of summaries of the most important texts, may be very useful for them. The "summarization" is to truncate the length of the input, while maintaining its significant topics. In this study, we will introduce a single-document summarizer for Persian texts. Considering that the process of creating best combination of sentences for composing the summery, is a NP-Complete problem, so there is not a decisive solution. So Forest optimization algorithm have been used to find an optimal solution. To avoid redundancy and prevention the presence of similar sentences in the final summery, cosine similarity of the summery considered as a negative parameter of summery score. To compare the performance of the automated summarizer system, the known and famous Bacterial Foraging Optimization Algorithm, has been used as a measure. To evaluate the precision and quality of generated summery, Rouge measure has been used. The dataset that has been used for this study is "Pasokh" that has been gathered by Mashhad Ferdosi university. Every news has 5 human generated summaries. This dataset has 100 news for single-document summarizations. Our tests results indicates with the summarizer using FOA, Avg_Precision is 0.39, Avg_Recall is 0.48 and Avg_F-Score is 0.42. and summerizer using BFOA showed the Avg_Precision of 0.38, Avg_Recall of 0.5 and Avg_F-Score of 0.42
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )