مقایسه درستی رده بندی داده¬های نامتوازن پزشکی با استفاده از ترکیب الگوریتم B-SMOTE با ICA و IGAE
General Material Designation
[پایان نامه]
Parallel Title Proper
Comparing the accuracy in classifying of imbalanced medical data using hybrid BLSMOTE algorithm with ICA and IGAE
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
علوم بهزیستی و توانبخشی University of Social Welfare and Rehabilitation
Date of Publication, Distribution, etc.
۱۳۹۸
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
۸۷ص.
GENERAL NOTES
Text of Note
پبوست
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
کارشناسي ارشد
Discipline of degree
آمارزیستیBiostatistics
Date of degree
۱۳۹۸/۰۷/۱۷
SUMMARY OR ABSTRACT
Text of Note
مقدمه: یکی از مشکلاتی که در تحلیل داده¬های پزشکی با آن روبه¬رو می¬شویم، عدم توازن در توزیع نمونه¬های متغیر پاسخ است. در این حالت می¬توان از داده¬کاوی و روش¬های آن استفاده کرد. در حوزه سلامت، برای بررسی پیش¬بینی بقای بیماران و روابط آن با عوامل خطرزا، می¬توان از مزیت¬های روش¬های داده¬کاوی بهره برد. هدف این مطالعه استفاده از روش رده¬بندی در داده¬های نامتوازن سرطان پستان و تعیین متغیرهای پیش¬بینی کننده¬ی بقای این بیماران است.روش کار: اطلاعات 117364 بیمار مبتلا به سرطان پستان در بازه¬ی زمانی 2015-2010که در تارگاهSEER بارگذاری شده بود با نرم افزار SEERSTAT استخراج و استفاده گردید. متغیر پاسخ در این مطالعه وضعیت بقای افراد (زنده/ فوت شده) در نظر گرفته شده که نرخ عدم توازن آن1/11درصد بود. در ابتدا، برای رفع نامتوازن بودن از دو روش نمونه¬گیری رو به بالا مرزیBLSMOTE و تولید نمونه مصنوعی براساس چگالی DBSMOTE استفاده شد. در ادامه، برای کاهش بُعد متغیرها و یافتن مهم¬ترین متغیرهای پیش¬بینی کننده از روش انتخاب ویژگی مبتنی بر اطلاعات (IGAE) و الگوریتم بهینه¬سازی رقابت استعماری(ICA) استفاده شد. در پایان برای ساخت مدل، از سه رده¬بند درخت تصمیم (C5) ، شبکه بیزی و رگرسیون لجستیک استفاده شد و از معیارهای درستی، حساسیت، ویژگی و G-mean برای ارزیابی عملکرد الگوریتم¬های ترکیبی استفاده شد. تحلیل داده¬ها با نرم افزار R نسخه¬ی 3.5.1 انجام پذیرفت.یافته¬ها: نتایج حاصل نشان داد بهترین عملکرد را روش ترکیبی C5 DBSMOTE+ ICA_IGAE+ براساس معیارهای درستی، حساسیت، ویژگی و G-mean به ترتیب با مقادیر 96.42و 93.0 و97.65 و 96.45درصد داشت.نتیجه¬گیری: استفاده از روش¬های متوازن¬سازی، منجر¬ به افزایش درستی نتایج رده-بندها گردید و از بد رده¬بندی جلوگیری کرد. همچنین، الگوریتم رقابت استعماری و انتخاب ویژگی مبتنی بر اطلاعات (IGA) روشی مناسبی در جهت کاهش ابعاد ویژگی و یافتن مهم-ترین متغیرهای پیش¬بینی¬کننده¬ بود.کلمات کلیدی: داده¬کاوی، سرطان پستان، درستی، رده نامتوازن، تکنیک¬های SMOTE، انتخاب ویژگی.
Text of Note
Introduction: One of the problems we face in analyzing medical data is the imbalance in the distribution of response variable. In this case, data mining and its methods can be used. In the field of health, the advantages of data mining methods can be explored to predict survival of new patients and discover the relationships between certain predictive variables and survival. This work aimed to develop a predictive model by use of classification method in imbalanced breast cancer data and discover the relationship between certain predictive variables and survival.Methods: In this work, information of breast cancer patients was obtained from the SEER site with the SEERStat software. The data was recorded in 2010-2015 with 117,364 records and 23 predictor variables and one response variable of “Survival” class and “Non survival” class.the imbalanced ratio was 11.1. First, the effectiveness of two synthetic over-sampling methods Borderline-Synthetic Minority Over-sampling Technique (BLSMOTE) and Density-based Synthetic Over-sampling (DBSMOTE) method is investigated to solve the class imbalanced problem. Then, imperialist competition algorithm optimization (ICA) and Information Gain Attribute Evaluation (IGAE) methods are used to reduce feature dimensions and find the most important predictor variables. Finally, in order to build a predictive model, the three classifiers decision tree (C5), Bayesian Network and Logistic Regression are applied to the final datasets.some assessment metrics such as Accuracy, sensitivity, specificity, and G-mean criteria are used to evaluate the performance of the hybrid approaches. R software version 3.5.1 was used to analyze the data and execute the algorithm.Results: The results obtained show that among all combinations, DBSMOTE+ ICA_IGAE+C5 presents the best efficiency in terms of accuracy, sensitivity, specificity and G-mean with the values of 96.42, 93.0, 97.65 and 96.45 ,respectivelyConclusion: Balancing methods can increase the accuracy of classification results and prevent misclassification and skewness. Also, Imperialist Competition Algorithm and Information Gain Attribute Evaluation (IGA) was a good way to reduce feature dimensions and find the most important predictive variables.Keywords: datamining,breast cancer,class imbalance,SMOTE technics,feature selection.