پیشبینی بقای سرطان سینه با استفاده از دادهکاوی و تکنیکهای یادگیری آماری
/الناز طبقچی
: پردیس بین المللی ارس گروه مهندسی کامپیوتر
، ۱۳۹۴
چاپی
کارشناسی ارشد
مهندسی کامپیوتر گرایش نرمافزار
۱۳۹۴/۱۱/۲۰
تبریز
در حوزه پزشکی استفاده از روشهای دادهکاوی به سرعت در حال افزایش است .کشف و تشخیص به موقع بیماریها میتواند از ابتلا به بسیاری از بیماریهای مهلک نظیر سرطان جلوگیری نموده، باعث نجات زندگی مردم گردد .پیشبینی نتیجه یک بیماری یکی از کارهای جالب و چالش برانگیزی است که در آن کاربردهای دادهکاوی توسعه داده شده است .هدف از روشهای پیشگویی دادهکاوی در پزشکی بالینی ساخت یک مدل پیشگویانه است که به پزشکان کمک کند تا روشهای پیشگیری، تشخیص و برنامههای درمانی خود را بهبود بخشند، در این پایاننامه تلاش شده است تا به پزشکان و دانشمندان جهت پیشبینی و تشخیص بقای سرطان سینه یاری رسانده شود .در این تحقیق تکنیکهای کلاسبندی دادهکاوی نظیر درخت تصمیم، ماشین بردار پشتیبان، شبکه عصبی مصنوعی، جنگلهای تصادفی، رگرسیون لجستیک، بیز ساده، شبکههای بیزی، مدل ترکیبی بیز ساده و درخت تصمیم روی مجموعه دادههای سرطان سینه که از پایگاه داده دانشگاه بیمارستان ویسکانسین تهیه شده است، جهت پیشبینی و مطالعه مقایسهای با استفاده از نرم افزار دادهکاوی RapidMiner اعمال شده است .نتایج حاصل از این کلاسبندیها نشان میدهد که شبکههای بیزی از لحاظ دقت، عملکرد بهتری نسبت به دیگر الگوریتمها داشته است و در رده دوم و سوم به ترتیب جنگل تصادفی و ماشین بردار پشتیبان رقابت نزدیکی داشتهاند و کمترین عملکرد به درخت تصمیم تعلق داشته است .نتایج مدلها را می توان علاوه بر دقت کلاسها بر اساس درصد پیشبینی صحیح کلاس خوشخیم) حساسیت (و کلاس بدخیم) ویژگی (نیز مورد بررسی و مقایسه قرار داد، که در این پایاننامه دقت مدلها حائز اهمیت بوده و نتایج مدلها جهت تعیین اینکه کدام الگوریتم بهینهترین مدل است مورد مقایسه قرار گرفته است
In the medical field, using of data mining techniques are rapidly increasing. Detection and early diagnosis of diseases such as cancer can be prevented from having many fatal diseases and causing to save the people life. Predicting the outcome of a disease is one of the more interesting and challenging tasks in which data mining applications is developed. The goal of data mining prediction techniques in clinical medicine is to building a predictive model that is to help doctors to improve diagnose, prevention methods and their treatment programs and in this thesis has been trying to help doctors and scientists to predict and diagnose breast cancer survival. In this research data mining classification techniques such as Decision Tree, Super Vector Machine and Random Forests, Artificial Neural Network, Logistic Regression, Naive Bayes, Bayesian Networks and hybrid model of Naive Bayes and Decision Tree have been applied to the breast cancer data sets that has been prepared from the University of Wisconsin Hospital database in order to predict and comparative study using data mining software RapidMiner. The results of these classifications shows that Bayesian Networks in terms of accuracy, has a better performance than other algorithms and in the second and third place, respectively, Random Forest and Super vector Machine have a close competition and lowest performance is belonged to the Decision Tree. The results of the models in addition to the accuracy of classes, also can be based on the correct prediction rate of benign class (sensitivity) and malignant class (specificity) discussioned and compared, In this thesis the accuracy of the models is important and the results of models have been mixed to determine which model is the most efficient algorithms