مقایسه درستی رده بندی داده¬های نامتوازن پزشکی با استفاده از ترکیب الگوریتم B-SMOTE با ICA و IGAE
نام عام مواد
[پایان نامه]
عنوان اصلي به زبان ديگر
Comparing the accuracy in classifying of imbalanced medical data using hybrid BLSMOTE algorithm with ICA and IGAE
وضعیت نشر و پخش و غیره
نام ناشر، پخش کننده و غيره
علوم بهزیستی و توانبخشی University of Social Welfare and Rehabilitation
تاریخ نشرو بخش و غیره
۱۳۹۸
مشخصات ظاهری
نام خاص و کميت اثر
۸۷ص.
يادداشت کلی
متن يادداشت
پبوست
یادداشتهای مربوط به پایان نامه ها
جزئيات پايان نامه و نوع درجه آن
کارشناسي ارشد
نظم درجات
آمارزیستیBiostatistics
زمان اعطا مدرک
۱۳۹۸/۰۷/۱۷
یادداشتهای مربوط به خلاصه یا چکیده
متن يادداشت
مقدمه: یکی از مشکلاتی که در تحلیل داده¬های پزشکی با آن روبه¬رو می¬شویم، عدم توازن در توزیع نمونه¬های متغیر پاسخ است. در این حالت می¬توان از داده¬کاوی و روش¬های آن استفاده کرد. در حوزه سلامت، برای بررسی پیش¬بینی بقای بیماران و روابط آن با عوامل خطرزا، می¬توان از مزیت¬های روش¬های داده¬کاوی بهره برد. هدف این مطالعه استفاده از روش رده¬بندی در داده¬های نامتوازن سرطان پستان و تعیین متغیرهای پیش¬بینی کننده¬ی بقای این بیماران است.روش کار: اطلاعات 117364 بیمار مبتلا به سرطان پستان در بازه¬ی زمانی 2015-2010که در تارگاهSEER بارگذاری شده بود با نرم افزار SEERSTAT استخراج و استفاده گردید. متغیر پاسخ در این مطالعه وضعیت بقای افراد (زنده/ فوت شده) در نظر گرفته شده که نرخ عدم توازن آن1/11درصد بود. در ابتدا، برای رفع نامتوازن بودن از دو روش نمونه¬گیری رو به بالا مرزیBLSMOTE و تولید نمونه مصنوعی براساس چگالی DBSMOTE استفاده شد. در ادامه، برای کاهش بُعد متغیرها و یافتن مهم¬ترین متغیرهای پیش¬بینی کننده از روش انتخاب ویژگی مبتنی بر اطلاعات (IGAE) و الگوریتم بهینه¬سازی رقابت استعماری(ICA) استفاده شد. در پایان برای ساخت مدل، از سه رده¬بند درخت تصمیم (C5) ، شبکه بیزی و رگرسیون لجستیک استفاده شد و از معیارهای درستی، حساسیت، ویژگی و G-mean برای ارزیابی عملکرد الگوریتم¬های ترکیبی استفاده شد. تحلیل داده¬ها با نرم افزار R نسخه¬ی 3.5.1 انجام پذیرفت.یافته¬ها: نتایج حاصل نشان داد بهترین عملکرد را روش ترکیبی C5 DBSMOTE+ ICA_IGAE+ براساس معیارهای درستی، حساسیت، ویژگی و G-mean به ترتیب با مقادیر 96.42و 93.0 و97.65 و 96.45درصد داشت.نتیجه¬گیری: استفاده از روش¬های متوازن¬سازی، منجر¬ به افزایش درستی نتایج رده-بندها گردید و از بد رده¬بندی جلوگیری کرد. همچنین، الگوریتم رقابت استعماری و انتخاب ویژگی مبتنی بر اطلاعات (IGA) روشی مناسبی در جهت کاهش ابعاد ویژگی و یافتن مهم-ترین متغیرهای پیش¬بینی¬کننده¬ بود.کلمات کلیدی: داده¬کاوی، سرطان پستان، درستی، رده نامتوازن، تکنیک¬های SMOTE، انتخاب ویژگی.
متن يادداشت
Introduction: One of the problems we face in analyzing medical data is the imbalance in the distribution of response variable. In this case, data mining and its methods can be used. In the field of health, the advantages of data mining methods can be explored to predict survival of new patients and discover the relationships between certain predictive variables and survival. This work aimed to develop a predictive model by use of classification method in imbalanced breast cancer data and discover the relationship between certain predictive variables and survival.Methods: In this work, information of breast cancer patients was obtained from the SEER site with the SEERStat software. The data was recorded in 2010-2015 with 117,364 records and 23 predictor variables and one response variable of “Survival” class and “Non survival” class.the imbalanced ratio was 11.1. First, the effectiveness of two synthetic over-sampling methods Borderline-Synthetic Minority Over-sampling Technique (BLSMOTE) and Density-based Synthetic Over-sampling (DBSMOTE) method is investigated to solve the class imbalanced problem. Then, imperialist competition algorithm optimization (ICA) and Information Gain Attribute Evaluation (IGAE) methods are used to reduce feature dimensions and find the most important predictor variables. Finally, in order to build a predictive model, the three classifiers decision tree (C5), Bayesian Network and Logistic Regression are applied to the final datasets.some assessment metrics such as Accuracy, sensitivity, specificity, and G-mean criteria are used to evaluate the performance of the hybrid approaches. R software version 3.5.1 was used to analyze the data and execute the algorithm.Results: The results obtained show that among all combinations, DBSMOTE+ ICA_IGAE+C5 presents the best efficiency in terms of accuracy, sensitivity, specificity and G-mean with the values of 96.42, 93.0, 97.65 and 96.45 ,respectivelyConclusion: Balancing methods can increase the accuracy of classification results and prevent misclassification and skewness. Also, Imperialist Competition Algorithm and Information Gain Attribute Evaluation (IGA) was a good way to reduce feature dimensions and find the most important predictive variables.Keywords: datamining,breast cancer,class imbalance,SMOTE technics,feature selection.
موضوع (اسم عام یاعبارت اسمی عام)
موضوع مستند نشده
داده¬کاوی
موضوع مستند نشده
datamining
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )