Estimation of Logistic Regression Parameters in the Presence of Multicollinearity with Application to Medical Data
General Material Designation
Dissertation
First Statement of Responsibility
Imad Dakhil Madhloom Al-Rubaye
.PUBLICATION, DISTRIBUTION, ETC
Name of Publisher, Distributor, etc.
Mathematics, Statistics and Computer Science
Date of Publication, Distribution, etc.
1402
PHYSICAL DESCRIPTION
Specific Material Designation and Extent of Item
78p.
Other Physical Details
cd.
DISSERTATION (THESIS) NOTE
Dissertation or thesis details and type of degree
M.S.
Discipline of degree
SCIENCE IN STATISTICS
Date of degree
1402/06/12
SUMMARY OR ABSTRACT
Text of Note
Logistic regression, a widely utilized regression model for binary response variables, relies on the maximum likelihood method for parameter estimation. However, when multicollinearity exists among independent variables, the estimators become ineffective due to variance inflation. To address this issue, various methods, including ridge regression, have been proposed. Ridge regression is crucial in estimating the ridge adjustment parameter, and several formulas have been suggested for this purpose. This thesis aims to introduce and compare a comprehensive set of ridge parameter formulas for logistic regression, utilizing efficiency criteria. To achieve this objective, Monte Carlo simulations will be conducted by varying correlation, the number of predictor variables, and sample size. The performance of selected ridge estimators will be compared, and the most suitable ones will be identified and recommended. Furthermore, the introduced ridge estimators, with different parameters, will be applied to real-world examples in the field of medical sciences. The implementation of the research utilizes R software, and the codes employed are presented in a dedicated section, ensuring practicality and accessibility.
Text of Note
مدل رگرسیون لجستیک با متغیر پاسخ دوتائی از پرکاربردترین مدلهای رگرسیون است .برای برآورد پارامترهای این مدل از روش حداکثر درستنمائی استفاده میشود، اما اگر بین متغیرهای مستقل همخطی وجود داشته باشد به دلیل پیدایش تورم واریانس برآوردگرها دیگر برآورد پارامترها، کارائی لازم را ندارند. برای رفع مشکل روشهای مختلفی پیشنهاد شده است، از جمله استفاده از رگرسیون ریج، که در این روش برآورد پارامتر تنظیم ریج اهمیت بسیاری دارد و برای آن فرمولهای مختلفی پیشنهاد شده است. در این پایان نامه سعی میشود که اکثر فرمولهای مختلف پیشنهادی برای پارامتر ریج، در رگرسیون لجستیک را معرفی و با استفاده از معیار کارائی آنها را مقایسه نمائیم. بدین منظور از شبیهسازی مونت کارلو با مقادیر مختلف همبستگی، تعداد متغیرهای پیشبین و اندازه نمونه استفاده و برآوردگرهای ریج انتخابی مورد مقایسه قرار خواهد گرفت و مناسبترین آنها انتخاب و پیشنهاد خواهد گردید. در پایان برآوردگرهای ریج معرفی شده با پارامترهای مختلف آن را با مثالهای واقعی در حوزه علوم پزشکی بکار خواهیم برد. برای کدنویسی موارد مذکور از نرم افزار R استفاده شد که کدهای استفاده شده نیز به شکلی کاربردی و مفید در بخشی جداگانه ارائه شده است.
OTHER VARIANT TITLES
Variant Title
برآورد پارامترهای رگرسیون لجستیک در حضور هم خطی چندگانه با کاربرد در دادههای پزشکی
UNCONTROLLED SUBJECT TERMS
Subject Term
Generalized linear model- logistic regression, multicollinearity problem, ridge parameter