دستهبندی اسناد کوتاه برای استخراج کلمات کلیدی و گسترش پرسوجو ها
First Statement of Responsibility
/هادی مقدم زاده
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
: ارس
NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
علوم کامپیوتر - نرم افزار
Date of degree
۱۳۹۴/۰۵/۰۵
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
کاوش متن پردازشی است که برای پیدا کردن و بهبود اطلاعات از متن به کار میرود .با کاوش می توان اجرای جستجوها را با توجه به ارتباط یادگیری ماشین و بازیابی اطلاعات بهبود بخشید .برای مثال دسته بندی موضوعی اخبار، یکی از حیطههای تمرکز محققان برای استخراج داده های مهم از محیطهای دادهای بزرگ است .به دلیل بالا رفتن محتوی ایجاد شده کاربران روی اینترنت، انواع متنصهای مختلفی با جذابیت بالا ایجاد شدهاند که نیاز است از میان حجم عظیم دادهها ,اطلاعات مورد نیاز استخراج گردد .برای این منظور نیاز به دستهبندی اسناد وجود دارد .در این تحقیق به استخراج اطلاعات از اسناد کوتاه که حاوی تعداد کمی کلمه هستند پرداخته شده است .بنابراین دانستن میزان اهمیت کلمات در داخل اسناد ضروری است که این کار از طریق استخراج کلمات کلیدی به وسیله تمرکز بر روی وزندهی به روابط صورت گرفته است .وقتی از اسناد کوتاه استفاده میصشود بزرگترین چالش در وزن دهی روابط این است که کلمات کلیدی در یک سند اغلب فقط یکبار تکرار میشوند که این کار را دشوار میسازد .در این تحقیق روشصهایی برای وزن دهی کلمات ارائه کرده و بر اساس وزنهای ارائه شده، اسناد ارزیابی میگردند .ارزیابی اسناد در سه مرحله صورت میگیرد ۱) :دسته بندی اسناد ۲) استخراج کلمات کلیدی برای تشخیص کلمات خیلی مهم از یک سند و ۳) مدل سازی کلمات کلیدی وابسته به هم با هدف شناسایی لینکصهای مابین کلمات کلیدی و استفاده از آنها برای گسترش پرسوجوها .الگوریتمی که ارائه شده است با استفاده از روشmeans - kبه دسته بندی اسناد میپردازد .بعد از انجام آزمایشات و بررسیهای انجام شده نتایج حاصل شده است و مقایسه نتایج با دیگر روشهای موجود نشان از برتری الگوریتم ارائه شده دارد
Text of Note
Nowadays With depending of database systems and high storage amount of data on them, it is necessary to use some tools for processing saved data and export information of them for clients. Main propose of this thesis is extraction of data importance in the documents through focus on word terms and wight of words. In this thesis we want to propose some methods for given weight and then analysis the documents. For analyzing the document proposed model is in below stages: 1) Document classification 2) Keyword extraction for important words in document 3) Modeling of the dependent words with the aim of verification links between key words and use them for query expansion. In the most of data mining methods in the documents the count of words is very important factors for determining documents importance, but when we use word documents the biggest challenge in the creating relationship is that most of the keywords just repeated one time in the document, which this caused a through job. In classification we have used unsupervised classification algorithms and its most used algorithm named K-means. This algorithm makes classifications based on the similarity between objects so that there is no similarity between the objects in the different classifications. It uses auclidian distance to measure the similarities. At the end of the thesis we have done evaluations and by comparing the results obtained from the thesis by the results in other papers it is shown that our method can outperform others in accuracy criteria