استخراج عباراتکلیدی اخبار فارسی با استفاده از یادگیری ژرف با تاکید بر حفظ ترتیب عبارات
مهدی عباسپور شاهمرس
مهندسي برق و کامپيوتر
۱۳۹۹
۶۵ص.
سی دی
کارشناسی ارشد
مهندسی کامپیوتر گرایش نرم افزار
۱۳۹۹/۰۷/۲۸
چکیده:استخراج عبارات کلیدی یکی از مهمترین فرآیند¬های بازیابی ¬اطلاعات متنی می¬باشد که دسترسی به اطلاعات ¬نهفته در میان داده¬های تولید¬شده را تسهیل می¬نماید. در غالب کارهای -پیشین استخراج عبارات¬ کلیدی بر پایه¬ی روش¬های آماری و یا یادگیری ماشین بر مبنای انتخاب تعداد انگشت¬ شماری ویژگی و کلاس¬بندی بر مبنای آنها بوده¬است. همچنین به¬دلیل استفاده از کیسه ¬کلمات، عملا ترتیب عبارات در متن، تاثیر خود بر کلیدی بودن را از دست می¬داد. پژوهش حاضر در تلاش است تا با استفاده از الگوریتم¬های یادگیری¬ژرف، مشکلات اشاره شده در فوق را مرتفع ¬نماید. ذات این الگوریتم¬ها عدم وابستگی آنها به مهندسی ویژگی است، از این رو مشکل انتخاب ویژگی با استفاده از این الگوریتم¬ها حل می¬گردد. همچنین تاثیر ترتیب عبارات در متن برای کلیدی ¬بودن عبارات نیز به¬دلیل عدم¬ استفاده از تکنیک کیسه¬ کلمات حفظ¬ می¬شود. در این فرآیند پس تبدیل متن خبر به بردارهای عددی، بردار تولید شده به همراه عبارات کلیدی مشخص شده توسط فرد خبره، در اختیار شبکه¬ی یادگیری¬ژرف قرار می¬گیرد. در نهایت پس از آموزش شبکه توسط داده¬های آموزشی و تنظیم ابر پارامترها، دقت استخراج در قیاس با روش¬های استخراج مبتنی بر یادگیری¬¬ماشین و روش-های¬ آماری سنجیده می¬شود.
AbstractExtraction of key phrases is one of the most important processes of retrieving textual information. In most previous work, keyword extraction was done based on selecting a handful of features and classifying based on them. Also, by using the word bag, the order of the phrases in the text practically lost its effect on being key. The present study tries to solve this problems by using deep learning algorithms. These algorithms do not require feature engineering. also and maintain the order of the expressions in the text due to the lack of word bag usage. In this process, after converting the news text into numerical vectors. The generated vector, along with the key phrases identified by the expert, is provided to the deep learning network. Finally, after training the network with training data and setting meta parameters, the accuracy of extraction is measured in comparison with extraction methods based on machine learning and statistical methods.
Extracting Key Phrases of Persian news using deep learning with emphasis on keeping phrases sequence