عنوان

ارائه یک سیستم خلاصه ساز تک سنده مستخرج برای زبان فارسی

پدید آورنده

/سعید معصومی

موضوع

رده

کتابخانه

University of Tabriz Library, Documentation and Publication Center

محل استقرار

استان: East Azarbaijan ـ شهر: Tabriz

تماس با کتابخانه : 04133294120-04133294118

NATIONAL BIBLIOGRAPHY NUMBER

Number

‭۱۱۰۸۶پ‬

LANGUAGE OF THE ITEM

.Language of Text, Soundtrack etc

per

TITLE AND STATEMENT OF RESPONSIBILITY

Title Proper

ارائه یک سیستم خلاصه ساز تک سنده مستخرج برای زبان فارسی

First Statement of Responsibility

/سعید معصومی

.PUBLICATION, DISTRIBUTION, ETC

Name of Publisher, Distributor, etc.

: دانشکد مهندسی برق و کامپیوتر

PHYSICAL DESCRIPTION

Specific Material Designation and Extent of Item

‮‭۹۳‬ص‬

NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.

Text of Note

چاپی

DISSERTATION (THESIS) NOTE

Dissertation or thesis details and type of degree

کارشناسی ارشد

Discipline of degree

در رشته مهندسی کامپیوتر- نرم‌افزار

Date of degree

‮‭۱۳۹۲/۰۶/۱۸‬

Body granting the degree

تبریز

SUMMARY OR ABSTRACT

Text of Note

با افزایش سریع حجم اطلاعات متنی، نیاز کاربران به ابزارهای تشخیص محتویات مهم بیشتر از گذشته احساس می-گردد .خلاصه‌صساز خودکار متن راه‌حلی برای این مشکل است که متن ورودی را دریافت کرده و قسمت‌صهای مهم آن را استخراج می‌صکند .کاهش افزونگی یک متن با حفظ اطلاعات مهم آن، خلاصه‌صسازی نامیده می‌شود .به طور کلی، فرآیند خلاصه‌صسازی شامل مراحل :پیش‌پردازش، شناسایی موضوع، تفسیر و تولید است .در پیش‌پردازش، متن ورودی به ساختاری مناسب برای پردازش‌صهای بعدی تبدیل می‌شود .مرحله‌ی دوم یعنی شناسایی موضوع، به شناسایی بخش‌های مهم متن اختصاص دارد .مرحله‌صی تفسیر نیز به بازنمایی معنایی بخش‌های انتخاب‌شده می-پردازد .در تولید که آخرین مرحله‌صی خلاصه‌صسازی است، بازنمایی معنایی بخش‌های مهم به صورت متنی در آمده و به عنوان خروجی به کاربر عرضه می‌شود .اما مشکل اساسی سیستم‌صهای خلاصه‌صساز متن تشخیص قسمت‌صهای مهم متن است که آن نیز وابسته به فاکتورهای مختلفی می-باشد .در این زمینه مطالعاتی انجام یافته است که برخی از آن‌ها از زنجیره‌صهای لغوی برای نمایش وابستگی لغوی موجود در متن و به عنوان یک نمایش سطح میانی از متن استفاده کرده‌صاند .همچنین برخی از مطالعات از الگوریتم ژنتیک به منظور آزمایش خلاصه‌صهای تولیدی انسانی و یادگیری الگوهای موجود در متن که منجر به تولید خلاصه‌صها می‌صشوند استفاده کرده‌صاند .یادگیری الگوهای موجود در متن با شناسایی ویژگی‌های مرتبط انجام می‌شود که این ویژگی‌صها بیشتر با خلاصه‌صهای انسانی در ارتباطند .در این پایان‌صنامه، ابتدا عملیات پیش‌صپردازشی روی متن ورودی انجام می‌شود .این عملیات شامل حذف کلمات توقف، ریشه‌صیابی کلمات و برچسب‌صگذاری آن‌ها است .به عبارتی دیگر جملات متن ورودی به جملاتی شامل کلمات محتوایی تبدیل می‌صشوند که این کلمات محتوایی به طور مستقل خود دارای معنی هستند .سپس بر اساس مجموعه ویژگی‌های مکانی، مجموعه ویژگی‌های شماتیکی و مجموعه ویژگی‌های وابستگی به این جمله-ها امتیازاتی داده می‌شود .امتیاز نهایی جمله ترکیب وزن-داری از این ویژگی‌صها خواهد بود .در آخر نیز جملاتی با بالاترین امتیاز نهایی برای قرار گرفتن در خلاصه گزینش می-شوند .از آنجایی که اهمیت این ویژگی‌صها متفاوت است معمولا برای هر کدام وزنی در نظر می‌گیرند و مقدار هر وزن نیز بصورت دستی تنظیم می‌شود .اما ما از الگوریتم ژنتیک برای یافتن بهترین وزن ویژگی‌صها بهره بردیم .برای این منظور یک پیکره‌ای شامل خبرهای روزنامه‌های معروف را جمع‌آوری نموده و خلاصه آن را به ‮‭۵‬ نفر از افراد خبره سپردیم .سپس سیستم را به فاز یادگیری فرستاده تا با اجرای الگوریتم ژنتیک مناسب‌ترین وزن‌ها را برای ویژگی‌ها بیابد .در فاز آزمایش، اسناد جدیدی به سیستم داده می‌شود که برای جملات آن امتیازات مکانی، شماتیکی و وابستگی محاسبه می‌شود .برای محاسبه امتیاز معنایی جملات از شبکه واژگان بهره بردیم .بطوریکه برای هر جمله تعداد لینک‌های مترادف، تعداد لینک‌های هم رخداد و امتیاز زنجیره لغوی را حساب کردیم .سیستم تولیدی از دو طریق مورد ارزیابی قرار گرفته است ‮‭۱)‬ .معیار دقت/فراخوانی ‮‭۲)‬ ابزار ‮‭TabEval‬ که یک ارزیاب خلاصه‌صساز ماشینی بوده و در آزمایشگاه دانشگاه تبریز توسعه یافته است .در بخش ارزیابی، سیستم ارائه‌شده ‮‭(TabSum)‬ را با دو سیستم خلاصه‌ساز ‮‭FarsiSum‬ و ایجاز مقایسه کردیم .نتایج نشان داد که سیستم ارائه‌شده کارایی بالاتری نسبت به دو سیستم مذکور دارد

Text of Note

With the rapid increase in the amount of online text information, it became more important to have tools that would help users distinguish the important content. Automatic text summarization attempts to address this problem by taking an input text and extracting the most important content of it. However, the determination of the salience of information in the text depends on different factors and remains as a key problem of automatic text summarization. In the literature, there are some studies that use lexical chains as an indicator of lexical cohesion in the text and as an intermediate representation for text summarization. Also, some studies make use of genetic algorithms in order to examine some manually generated summaries and learn the patterns in the text which lead to the summaries by identifying relevant features which are most correlated with human generated summaries. In this study, we combine these two approaches of summarization. Firstly, some of preprocessing operations like normalizer, tokenizer, stop word remover, stemmer, and POS tagger are done on the text. After that for each sentence we have only semantic words that are independent. Then, by set of position, thematic, and coherence features we score sentences. The final score of each sentence will be the integration of those features. Each feature has its own weight and should be identified to have well summary. For this reason first system goes throw learning phase to determine ache feature weight by genetic algorithm. The next phase is testing phase. In this phase system receives new documents and uses Persian WordNet and lexical chains to extract deep level of knowledge about the text. This knowledge is combined with other higher level analysis results. Finally, sentences are scored, sorted, and selected and summary is made. We evaluated our proposed system by two methods. 1) precision/recall, 2) TabEval (a new evaluation tool for Persian text summarizers). We compared our system with two other Persian summarizers (FarsiSum, Ijaz). Results showed that our system had higher performance rather than others. (i.e. higher precision/recall average and the best average score of TabEval)

PERSONAL NAME - PRIMARY RESPONSIBILITY

معصومی، سعید

PERSONAL NAME - SECONDARY RESPONSIBILITY

فیضی درخشی، محمد رضا، استاد راهنما

پاشازاده، سعید، استاد مشاور

ELECTRONIC LOCATION AND ACCESS

Public note

سیاه و سفید

نمایه‌سازی قبلی

عنوان ارائه یک سیستم خلاصه ساز تک سنده مستخرج برای زبان فارسی

پدید آورنده /سعید معصومی

موضوع

رده

کتابخانه University of Tabriz Library, Documentation and Publication Center

محل استقرار استان: East Azarbaijan ـ شهر: Tabriz

NATIONAL BIBLIOGRAPHY NUMBER

LANGUAGE OF THE ITEM

TITLE AND STATEMENT OF RESPONSIBILITY

.PUBLICATION, DISTRIBUTION, ETC

PHYSICAL DESCRIPTION

NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.

DISSERTATION (THESIS) NOTE

SUMMARY OR ABSTRACT

PERSONAL NAME - PRIMARY RESPONSIBILITY

PERSONAL NAME - SECONDARY RESPONSIBILITY

ELECTRONIC LOCATION AND ACCESS

عنوان

ارائه یک سیستم خلاصه ساز تک سنده مستخرج برای زبان فارسی

پدید آورنده

/سعید معصومی

کتابخانه

University of Tabriz Library, Documentation and Publication Center

محل استقرار

استان: East Azarbaijan ـ شهر: Tabriz