امروزه، داده کاوی یکی از تکنیکصهای پرکاربرد میصباشد که پردازش خود را روی دادهصهای انبوه انجام میصدهد .فراوانی داده-های پزشکی و بیماریصها بستر مناسبی برای به کارگیری تکنیکصهای مختلف دادهصکاوی مهیا کرده است .تشخیص زودرس افراد مبتلا به یک بیماری مخفی مانند دیابت از اهمیت زیادی برخوردار است .با تشخیص به موقع بیماری میصتوان اقدامات به موقع برای جلوگیری از پیشرفت بیماری و یا آسیب رساندن به اعضای بدن را انجام داد .در این پایانصنامه نرمصافزار Rapid miner ۵ برای مدلصسازی به کار گرفته شده است .از مجموعه داده Pima Indians Diabetes Database استفاده شده است که شامل ۷۶۸ رکورد است که مربوط به ۲۶۸ زن مبتلا به دیابت و ۵۰۰ زن سالم است .برای پاکسازی دادهصها از نقاط دور افتاده و رکوردهای نامناسب ابتدا دادهصها با استفاده از الگوریتم K میانگین خوشهصبندی شدصهصاند .از شاخص دیویس بولدین جهت تعیین بهترین تعداد خوشهصها استفاده شد .از هر خوشه، رکوردهای یک رده را که تعدادشان کمتر بود حذف شدند .به جهت کاهش پیچیدگی دادهصها، کاهش بعد دادهصها را با استفاده از روش تحلیل اجزای اصلی (PCA) انجام شد .سپس برای ردهصبندی از سه الگوریتم درخت تصمیم، بیز ساده و شبکهصهای عصبی مصنوعی در دو حالت قبل از اعمال تحلیل اجزای اصلی و پس از آن، استفاده گردیده است .ارزیابی روشصهای مختلف با استفاده ازfold cross validation - ۱۰انجام شد و روش درختهای تصمیم با اعمال عملگر PCA بالاترین دقت ( (۷۳/۹۷ را کسب کرده و به عنوان بهترین روش انتخاب شد .روش شبکه عصبی نیز دقت قابل قبولی ( (۹۴/۹۳ را نتیجه داد
متن يادداشت
( ve Bayes and artificial neural network are used for classification both before and after applying principal component analysis. Evaluation of different methods are performed using ۱۰-fold cross validation and decision trees with applying the PCA operator gained the highest accuracy (۹۷.۷۳ ) and selected as the best method. The neural network approach also yielded acceptable accuracy (۹۳.۹۴گToday, data mining is one of the more applicable techniques that does its process on large data. Existence of large volume of medical and illnesses data provides good platform for using various data mining techniques. Early diagnosis of persons with hidden illnesses like people with no symptoms of diabetes is very important. Using early diagnosis of illness, on time actions can be done to avoid disease progression or damage to organs. Rapid miner ۵ software is used for modeling in this thesis. The Pima Indians Diabetes Database is used that contains ۷۶۸ records of ۲۶۸ women who have diabetes and ۵۰۰ healthy women. At first, for data cleaning from outliers and inappropriate records, K-means algorithm is used for data clustering. Davies Bouldin index is used to determine the best number of clusters. For each cluster, records of each class that their number is lower were removed. In order to reduce the complexity of data, data dimension reduction using principal component analysis (PCA) have been done. Then, three algorithms: decision tree, na
نام شخص به منزله سر شناسه - (مسئولیت معنوی درجه اول )