امروزه ابزارهایی نظیر خلاصهسازهای خودکار و مترجمهای سیستمی توجه زیادی را به خود جلب نمودهاند و فعالیتهای زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است .با توجه به اهمیت بسیار زیاد خلاصهسازها، موضوع مهمی که در این زمینه، مطرح است آنست که پس از تولید خلاصه چطور کیفیت آنها را ارزیابی کنیم .بنابراین در این پایانصنامه، به ارائهصی ابزاری به اسم TabEval برای ارزیابی خودکار خلاصهسازهای سیستمی می-پردازیم که از آن در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات از جمله بررسی میزان تشابه دو متن هم میتوان استفاده نمود .دادهصی استفاده شده در این ارزیاب، پیکرهصای شامل خبرهای روزنامهصهای معروف میصباشد .هریک از خبرهای موجود در پیکره برای به حداقل رساندن سلیقهصهای شخصی توسط چند فرد خبره بصورت دستی خلاصهسازی شده است) خلاصهی انسانی .(در این پایانصنامه ابزار ارزیابی ارائه شده برای ارزیابی کیفیت خلاصهی سیستمی به محاسبهصی میزان تشابه بین خلاصهی سیستمی و خلاصهصهای انسانی میصپردازد و شامل معیارهایی است که این معیارها تعداد واحدهایی را که از نظر ظاهری و معنایی بین خلاصهصهای سیستمی و خلاصهصهای انسانی همصپوشانی دارند محاسبه میصنمایند .بدیهی است برای انجام مقایسهصی متون در سطح معنا بهرهصگیری از شبکهی واژگان، ضروری به نظر میصرسد .روش کار به این ترتیب است که ابتدا برای اینکه مشخص شود در تولید خلاصهصهای انسانی، افراد خبره بر کدام جمله-ها تاکید بیشتری داشتهصاند خلاصهصهای انسانی را به مجموعه-های N تایی ،N - ۱تایی و ... و ۱ تایی تقسیم کردیم بطوریکه مجموعهصی N تایی شامل جملهصهایی با N بار تکرار در خلاصهصهای انسانی است .سپس خلاصهی سیستمی به دو قسمت مشترک و غیر مشترک تقسیم میصشود بدین صورت که اگر جملهصای از خلاصهی سیستمی در مجموعه جملات خلاصهی انسانی باشد، در قسمت مشترک و در غیر اینصورت در قسمت غیر مشترک قرار می-گیرد .در مرحله بعدی عملیات پیشصپردازش از جمله حذف کلمات توقف و جداکردن جملات و جدا کردن کلمات و ریشهیابی و برچسب زدن نحوی انجام میصگیرد و سپس به امتیازدهی قسمتهای مشترک و غیر مشترک بر اساس معیارهایی پرداخته میصشود و در نهایت میانگین امتیازات جملات خلاصهی سیستمی نشانصدهندهصی امتیاز سیستم خلاصهساز خواهد بود .تاکنون برای ارزیابی سیستمهای خلاصهساز معیارهای دقت/فراخوانی را محاسبه میصکردند و بر اساس این معیارها کیفیت خلاصهی سیستمی را ارزیابی میصکردند .برای ارزیابی ابزار ارائه شده(TabEval) ، ابتدا خلاصهی اسناد پیکره توسط سیستمهای خلاصهساز مورد ارزیابی تولید و ذخیره می-شوند .سپس برای کلیهصی خلاصهصهای سیستمی تولید شده ترکیبی از معیارهای دقت و فراخوانیmeasure) - (Fرا محاسبه میصکنیم .مقدار بدست آمده نشاندهندهی عملکرد سیستمهای خلاصهساز است .سپس همان خلاصهصهای سیستمی تولید شده را با ابزار ارائه شده (TabEval) ارزیابی میصکنیم .در نهایت مقایسهصی نتایج بدست آمده از دو ارزیاب نشان داد که ابزار ارائه شده از لحاظ ظاهری و معنایی نتایج بهتر و قابلقبولتری ارائه میصدهد
متن يادداشت
Nowadays summarizers and machine translators have attracted much attention to themselves, and many activities on making such tools have been done around the world. For Persian like the other languages there have been efforts in this field. So evaluating such tools has a great importance. In this thesis, a tool (TabEval) for evaluating summarizers is proposed so that can be used in the other applications of Natural Language Processing (NLP) and Information Retrieval (IR) as well. The data that we used in this system is a corpus that has some of Iranian famous newspapers. Each of news in the corpus has 5 ideal summaries. In this study, our tool for evaluating the quality of machine summary computes the similarity between system summary and human summaries. It has some metrics that computes the lexical and semantic overlapping between human and system summaries. It is obvious that, if we want to compare texts at semantic level we have to use a Persian WordNet. Suppose that we have N human generated summaries for each document. So, we have N sets. First, we classify sentences into sets. SetN means that its sentences happened N times in human summaries. After making sets, we divide machine summary into 2 parts (common and uncommon). If a sentence in machine summary happens in any set it marks as common and places in common part. Otherwise it places in uncommon part. In the next phase some of preprocessing operations are applied on the text like normalization, tokenization, stop word removing, stemming, and POS tagging. Then, the sentences in common and uncommon parts are scored via some metrics. Finally, the score of machine summary would be the integration of both common and uncommon scores. In recent years, summary developers have used precision/recall metrics for evaluating the performance of their systems. But it is not completely semantic method and has its drawbacks. For evaluating our method (TabEval) we first entered our corpus to some summarizers and saved their results. After that, we computed precision/recall for each machine summary. That metric was the old one for evaluating machine summaries. At the next step, we evaluated each machine summary with our proposed system (TabEval). With comparing results of two methods we can see that our proposed system has better and more acceptable lexical and semantic results than the other
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )