خلاصهسازی خودکار متن با استفاده از الگوریتمهای خوشهبندی
/مرتضی ندیمی زنگبار
: پردیس
، ۱۳۹۴
چاپی
کارشناسی ارشد
علوم کامپیوتر، گرایش هوش مصنوعی
۱۳۹۴/۱۱/۰۷
تبریز
خلاصهصسازی خودکار متن برای استخراج اطلاعات مفید و موردنظر کاربران و کاهش محدودیتصهای زمانی کاربران برای مطالعه منابع بیشتر و با سرعت بالا، راهکارهای مناسبی ارائه میصدهد .همچنین برای گزینش اطلاعات مفیدتر و باکیفیتصتر و جلوگیری از اطلاعات تکراری، خوشهصبندی ایده مناسبی میصباشد .راهکار پیشنهای، یک روش مناسب خلاصهصسازی و مبتنی بر خوشهصبندی استخراجی است، خلاصه سازی که هیچ تغییری در شکل اولیه جملات بوجود نمیصآورد و تنها خلاصهصای مفید از همان جملات اولیه ایجاد میصکند .در روش پیشنهادی، بعد از یک پیش پردازش کلی روی متن، کلمات کلیدی با بهصکارگیری معیارهای مختلف، مانند کلمات کلیدی کاربر و با استفاده ازIDF- TF، استخراج میصشوند .طی دو مرحله خلاصهصسازی انجام میصشود، در مرحله اول یک غربالصگری بر روی متن حجیم با بهصکارگیری الگوریتم ژنتیک و استفاده از کلمات کلیدی انجام میصگیرد که خروجی این مرحله متن کاهش یافتهص و مفیدی است که مفهوم کلی را میصرساند .متن خروجی مرحله اول، جملات با اهمیتی هستند که ورودی مرحله دوم میصباشد که ایده خوشهصبندی در این مرحله انجام میصگیرد .خوشهصبندی با روشmeans - Kبهبود یافته پیشنهادی انجام میصشود و از ترکیب روشISF - TFبا معیارهای شباهت کسینوسی، اقلیدسی و جاکارد برای تعیین شباهت جملات و تخصیص جملات به خوشهصها استفاده شده است .بعد از تخصیص جملات به خوشهصها، جملات هر خوشه مطابق معیارهای روش پیشنهادی امتیازدهی میصشوند و از هر خوشه یک جمله با امتیاز بالا به عنوان نماینده آن خوشه برای خلاصه نهایی گزینش میصشود .ایدهصهای روش پیشنهادی عبارتند از :استخراج جملات با ارزش توسط الگوریتم ژنتیک و همچنین ارائه یک الگوریتمmeans - Kبهبود یافته و منصف با انتخاب بهینه مراکز خوشهصها .روش پیشنهادی در محیط ویژوالC پیادهصسازی شده و نتایج شبیهصسازی راهکار پیشنهادی نشان میصدهد که خوشهصبندیmeans - Kبهبود یافته با انتخاب بهینه مراکز خوشهصها و با معیار شباهت کسینوسی و جاکارد میزان کارایی ۰.۸۱۸ درصد و میزان افزونگی ۰.۳۳ درصد را نسبت به خلاصه انسانی داشته است و همچنین نسبت به روش خوشهصبندی] ۳۴[که دارای میزان کارایی ۰.۷۹۲ درصد و میزان افزونگی ۰.۴۲ درصد میصباشد، بهتر عمل کرده است
Automatic text summarization offers appropriate solutions to extract useful information about users and reduce the time limits users to study more resources and high-speed. It is also, clustering is a good idea for selection of useful and quality information and avoid duplication. The proposed solution, a suitable method for summarizing and clustering-based extraction, a summary of which will not bring about any change in the basic form sentences and creates only useful summary of the first sentence. In the proposed method, after pre-processing on text, keywords are extracted using different criteria, such as the user keywords or by using the TF-IDF method. Summarization done in two stages; A screening is done in the first phase and on large text by using a genetic algorithm and keywords, The output of this stage is a useful declined text to take that concept. Output text of the first stage are important statements that is input for the second stage and at this stage is the idea of clustering. Clustering is don with improved K-means method and the combination of TF-ISF method with cosine, Euclidean and Jaccard similarity criteria is used to determine the similarity of sentences and assign clusters sentences and among the high points of each cluster as its representative to be selected for the final summary. The idea of the proposed method include: Extraction of valuable statements by genetic algorithm and as well as providing an improved K-means algorithm and fair by selecting optimal cluster centers. The proposed method has been implemented in Visual C and simulation results show that the proposed approach improved K-means clustering with optimal selection cluster centers and Cosine and Jaccard similarity measures the performance of 0.818 and 0.33 have redundancy rather than summary of human and summarization of [34] with performance of 0.792 and 0.33 of redundancy