NOTES PERTAINING TO PUBLICATION, DISTRIBUTION, ETC.
Text of Note
چاپی
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسی ارشد
Discipline of degree
علوم کامپیوتر گرایش سیستمهای هوشمند
Date of degree
۱۳۹۵/۰۹/۲۱
Body granting the degree
تبریز
SUMMARY OR ABSTRACT
Text of Note
در سالهای اخیر به دلیل پیشرفت تجهیزات رایانهای، تولید اسناد متنی با یک رشد نمایی مواجه شده است .در میان این حجم انبوه از اسناد، ممکن است اسناد مشابه دیگری نیز ایجاد شده باشد که شناسایی همه آنها توسط انسان کاری غیرممکن به نظر میرسد .برای حل این مشکل، در طول زمان روشهای شباهتیابی مختلفی برای پیدا کردن اسناد مشابه معرفی شده است .در این تحقیق روش simhash برای شباهتیابی اسناد متنی بین متون خبری مورد بررسی قرار گرفته است .برای ارزیابی عملکرد سامانه لازم بود روش پیشنهادی با دادههای آزمون مورد ارزیابی قرار گیرد .اما به دلیل حجم عظیم دادهها امکان استفاده از انسان برای ارزیابی نمونههای آزمون وجود نداشت لذا به جای انسان، روش جاکارد برای ارزیابی عملکرد simhashجایگزین شده است .جاکارد یک روش دقیق میباشد اما سرعت آن پایین است .لذا استفاده از آن برای دادههای بزرگ امکان پذیر نیست .لذا ابتدا روش جاکارد با نمونه دادههای کوچک خبری، توسط انسان ارزیابی شده سپس مجموعه خبری با استفاده از روش simhash با مبنا قراردادن روش جاکارد مورد آزمایش قرار گرفت آزمایشهای انجام شده نشان میدهد که برای روش جاکارد بهترین حد آستانه ۴۵۰ با صحت ۶۹۸ درصد نسبت به انسان میباشد و برای روش simhash نیز بهترین حد آستانه ۷۲۵۰ با صحت ۹۴۹۹ درصد نسبت به روش جاکارد بدست آمده .همچنین تکرار آزمایشها به ازایn گرمهای مختلف نشان داد به ازای n=۱جواب معنا داری وجود ندارد و با توجه به نتایج بدست آمده از آزمایشها مقدار ۲ و ۳ برای n مقدار مناسبی می باشد
Text of Note
In recent years due to improvement in computer like devices, genetrating of text documents had a very quick growth. So it is possible that inside this mass of documents there may be generated similar ones and identification of these similar documents is very difficult for human. To solve this problem, different similarity detection methods have been introduced over the time. One of those methods is Simhash that has been studied for detecting similaritis between text news documents in this paper. To evaluate the system, it was necessary to evaluate proposed method with sample data. But due to the large amount of data it wat impossible and impractical to use human for evaluating sample data. Therefoe, Jaccard method which is a similarity detection method has been used to evaluate Simhash.Jaccard is a precise method but because of its low speed it cannot be used for big data. Therefore, first, Jaccard method has been evaluated by human with small sample news documents and then our main news documents have been tested by Simhash and its accuracy evaluated by jaccard method. Performed tests showed that the best threshold for Jaccard is 0.45 with 98.6 accuracies in comparison with hauman. And the best threshold for Simhash is 0.725 with 99.94 accuracies in comparison with Jaccard. Also test repetition for diffirent N-grams showed that for n=1 there is not a meaningful answer and according to results gained by performed tests values of 2 and 3 for N are proper ones