بهبود دقت دستهبندی دادههای نامتوازن با به کارگیری الگوریتم جنگل
عنوان اصلي به زبان ديگر
Improve the accuracy of the imbalanced data classification with forest algorithm
نام نخستين پديدآور
/زهرا واحدی نیا
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
: پردیس دانشگاه تبریز
تاریخ نشرو بخش و غیره
، ۱۳۹۶
مشخصات ظاهری
نام خاص و کميت اثر
۶۶ص
یادداشتهای مربوط به نشر، بخش و غیره
متن يادداشت
چاپی - الکترونیکی
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کار شناسی ارشد
نظم درجات
مهندسی کامپیوتر گرایش هوش مصنوعی
زمان اعطا مدرک
۱۳۹۶/۱۱/۰۳
کسي که مدرک را اعطا کرده
تبریز
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
دادههای نامتوازن به دادههایی گفته میشود که در آن تعداد دادههای مربوط به دو کلاس با یکدیگر برابر نبوده و یک کلاس نسبت به کلاس دیگر دارای نمونههای کمتری باشد .متاسفانه بسیاری از پایگاهدادههای موجود در جهان واقعی برای آموزش سیستمهایی مانند پالایش صفحات غیرمجاز، تشخیص بیماریها، تشخیص نفوذ شامل دادههای نامتوازن میباشند .وجود این نوع دادهصها منجر به کاهش کیفیت آموزش توسط روشهای نظارتی خواهد شد .الگوریتم جنگل یکی از روشهای بهینهسازی میباشد که در سالهای اخیر توسط محققان برای مسائل بهینهسازی مطرح شده است .این الگوریتم تا کنون برای متوازنسازی دادهها مورد استفاده قرار نگرفته است .در این پایاننامه متوازن سازی دادهها با استفاده از الگوریتم جنگل پیشنهاد شده است .در ادامه روش پیشنهادی مورد ارزیابی قرار گرفته و کارایی آن با چهار طبقهبند مختلف نیوبیز، شبکههای عصبی مصنوعی، درخت تصمیمگیری و نزدیکترین همسایه مجاور مورد بررسی قرار گرفته است .همچنین روش پیشنهادی با سایر روشهای متوازنسازی موجود از جملهRS ،SRAND ، BRC وRS + BRCمقایسه شده است .با توجه به نتایج به دست آمده به طور میانگین میزان تشخیص روش پیشنهادی ۵.۷ درصد نسبت به حالت نامتوازن، ۳.۱ درصد نسبت به روش RS ، ۳.۶ درصد نسبت به روشSRAND ، ۵.۳ درصد نسبت به روش BRC و ۲.۴ درصد نسبت به روشRS + BRCافزایش یافته است .بالاترین تشخیص حاصله از روشهای مطرح برابر با ۹۸ درصد بوده است که از طریق روش پیشنهادی با طبقهبند نیوبیز حاصل گردیده است
متن يادداشت
Unbalanced data refers to data in which the number of data for the two classes is not equal to each other and a class is less than the other class. Unfortunately, many of the real world databases are used to teach systems such as filtering unauthorized pages, detecting diseases, and detecting infiltration, including unbalanced data. The existence of this type of data will reduce the quality of education by regulatory methods. Forest algorithm is one of the optimization methods that has been proposed by researchers for optimization issues in recent years. This algorithm has so far not been used to balance data. In this dissertation, balancing the data is proposed using the forest algorithm. The proposed method has been evaluated and its effectiveness has been studied with four different classifications of Naive Bayes, artificial neural networks, decision tree and nearest adjacent neighborhoods. The proposed method has also been compared with other available balancing methods, including RS, SRAND, BRC and BRC + RS. According to the results, the average detection rate of the proposed method was 5.7 compared to the unbalanced mode, 3.1 compared to the RS method, 3.6 compared to the SRAND method, 5.3 compared to the BRC method and 2.4 compared to the BRC + RS method Increased. The highest detection rate of the proposed methods was 98 , which was obtained through the proposed method with the Naive Bayes stratified method
عنوان اصلی به زبان دیگر
عنوان اصلي به زبان ديگر
Improve the accuracy of the imbalanced data classification with forest algorithm
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )