ارائه یک سیستم خلاصه ساز تک سنده مستخرج برای زبان فارسی
/سعید معصومی
: دانشکد مهندسی برق و کامپیوتر
۹۳ص
چاپی
کارشناسی ارشد
در رشته مهندسی کامپیوتر- نرمافزار
۱۳۹۲/۰۶/۱۸
تبریز
با افزایش سریع حجم اطلاعات متنی، نیاز کاربران به ابزارهای تشخیص محتویات مهم بیشتر از گذشته احساس می-گردد .خلاصهصساز خودکار متن راهحلی برای این مشکل است که متن ورودی را دریافت کرده و قسمتصهای مهم آن را استخراج میصکند .کاهش افزونگی یک متن با حفظ اطلاعات مهم آن، خلاصهصسازی نامیده میشود .به طور کلی، فرآیند خلاصهصسازی شامل مراحل :پیشپردازش، شناسایی موضوع، تفسیر و تولید است .در پیشپردازش، متن ورودی به ساختاری مناسب برای پردازشصهای بعدی تبدیل میشود .مرحلهی دوم یعنی شناسایی موضوع، به شناسایی بخشهای مهم متن اختصاص دارد .مرحلهصی تفسیر نیز به بازنمایی معنایی بخشهای انتخابشده می-پردازد .در تولید که آخرین مرحلهصی خلاصهصسازی است، بازنمایی معنایی بخشهای مهم به صورت متنی در آمده و به عنوان خروجی به کاربر عرضه میشود .اما مشکل اساسی سیستمصهای خلاصهصساز متن تشخیص قسمتصهای مهم متن است که آن نیز وابسته به فاکتورهای مختلفی می-باشد .در این زمینه مطالعاتی انجام یافته است که برخی از آنها از زنجیرهصهای لغوی برای نمایش وابستگی لغوی موجود در متن و به عنوان یک نمایش سطح میانی از متن استفاده کردهصاند .همچنین برخی از مطالعات از الگوریتم ژنتیک به منظور آزمایش خلاصهصهای تولیدی انسانی و یادگیری الگوهای موجود در متن که منجر به تولید خلاصهصها میصشوند استفاده کردهصاند .یادگیری الگوهای موجود در متن با شناسایی ویژگیهای مرتبط انجام میشود که این ویژگیصها بیشتر با خلاصهصهای انسانی در ارتباطند .در این پایانصنامه، ابتدا عملیات پیشصپردازشی روی متن ورودی انجام میشود .این عملیات شامل حذف کلمات توقف، ریشهصیابی کلمات و برچسبصگذاری آنها است .به عبارتی دیگر جملات متن ورودی به جملاتی شامل کلمات محتوایی تبدیل میصشوند که این کلمات محتوایی به طور مستقل خود دارای معنی هستند .سپس بر اساس مجموعه ویژگیهای مکانی، مجموعه ویژگیهای شماتیکی و مجموعه ویژگیهای وابستگی به این جمله-ها امتیازاتی داده میشود .امتیاز نهایی جمله ترکیب وزن-داری از این ویژگیصها خواهد بود .در آخر نیز جملاتی با بالاترین امتیاز نهایی برای قرار گرفتن در خلاصه گزینش می-شوند .از آنجایی که اهمیت این ویژگیصها متفاوت است معمولا برای هر کدام وزنی در نظر میگیرند و مقدار هر وزن نیز بصورت دستی تنظیم میشود .اما ما از الگوریتم ژنتیک برای یافتن بهترین وزن ویژگیصها بهره بردیم .برای این منظور یک پیکرهای شامل خبرهای روزنامههای معروف را جمعآوری نموده و خلاصه آن را به ۵ نفر از افراد خبره سپردیم .سپس سیستم را به فاز یادگیری فرستاده تا با اجرای الگوریتم ژنتیک مناسبترین وزنها را برای ویژگیها بیابد .در فاز آزمایش، اسناد جدیدی به سیستم داده میشود که برای جملات آن امتیازات مکانی، شماتیکی و وابستگی محاسبه میشود .برای محاسبه امتیاز معنایی جملات از شبکه واژگان بهره بردیم .بطوریکه برای هر جمله تعداد لینکهای مترادف، تعداد لینکهای هم رخداد و امتیاز زنجیره لغوی را حساب کردیم .سیستم تولیدی از دو طریق مورد ارزیابی قرار گرفته است ۱) .معیار دقت/فراخوانی ۲) ابزار TabEval که یک ارزیاب خلاصهصساز ماشینی بوده و در آزمایشگاه دانشگاه تبریز توسعه یافته است .در بخش ارزیابی، سیستم ارائهشده (TabSum) را با دو سیستم خلاصهساز FarsiSum و ایجاز مقایسه کردیم .نتایج نشان داد که سیستم ارائهشده کارایی بالاتری نسبت به دو سیستم مذکور دارد
With the rapid increase in the amount of online text information, it became more important to have tools that would help users distinguish the important content. Automatic text summarization attempts to address this problem by taking an input text and extracting the most important content of it. However, the determination of the salience of information in the text depends on different factors and remains as a key problem of automatic text summarization. In the literature, there are some studies that use lexical chains as an indicator of lexical cohesion in the text and as an intermediate representation for text summarization. Also, some studies make use of genetic algorithms in order to examine some manually generated summaries and learn the patterns in the text which lead to the summaries by identifying relevant features which are most correlated with human generated summaries. In this study, we combine these two approaches of summarization. Firstly, some of preprocessing operations like normalizer, tokenizer, stop word remover, stemmer, and POS tagger are done on the text. After that for each sentence we have only semantic words that are independent. Then, by set of position, thematic, and coherence features we score sentences. The final score of each sentence will be the integration of those features. Each feature has its own weight and should be identified to have well summary. For this reason first system goes throw learning phase to determine ache feature weight by genetic algorithm. The next phase is testing phase. In this phase system receives new documents and uses Persian WordNet and lexical chains to extract deep level of knowledge about the text. This knowledge is combined with other higher level analysis results. Finally, sentences are scored, sorted, and selected and summary is made. We evaluated our proposed system by two methods. 1) precision/recall, 2) TabEval (a new evaluation tool for Persian text summarizers). We compared our system with two other Persian summarizers (FarsiSum, Ijaz). Results showed that our system had higher performance rather than others. (i.e. higher precision/recall average and the best average score of TabEval)