نحوه تفسیر خروجی رگرسیون در R

در این مقاله قصد دارم به آموزش تفسیر خروجی رگرسیون در R بپردازم. تا انتهای این مقاله همراه کیارا آکادمی باشید تا آموزش نرم افزار R را به صورت کاربردی دریافت نمایید.

تفسیر خروجی رگرسیون

برای جا دادن یک مدل رگرسیون خطی در R، می‌توانیم از دستور ()lm استفاده کنیم. برای مشاهده خروجی مدل رگرسیون، می‌توانیم از دستور ()summary استفاده کنیم. این آموزش نحوه تفسیر هر مقدار در خروجی رگرسیون در R را توضیح می دهد.

مثال تفسیر خروجی رگرسیون در R

کد زیر نشان می دهد که چگونه می توان یک مدل رگرسیون خطی چندگانه را با مجموعه داده داخلی mtcars با استفاده از hp، drat و wt به عنوان متغیرهای پیش بینی و mpg به عنوان متغیر پاسخ، برازش داد:

#fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

در این جا نحوه تفسیر هر مقدار در خروجی آمده است:

این بخش فرمولی را که در مدل رگرسیون خود استفاده کردیم را به ما یادآوری می کند. می بینیم که mpg را به عنوان متغیر پاسخ و hp، drat و wt را به عنوان متغیرهای پیش بینی خود استفاده کرده ایم. هر متغیر از مجموعه داده ای به نام mtcars آمده است. این بخش خلاصه ای از توزیع باقیمانده از مدل رگرسیون را نشان می دهد. به یاد بیاورید که باقیمانده تفاوت بین مقدار مشاهده شده و مقدار پیش بینی شده از مدل رگرسیون است. حداقل باقیمانده 3.3598-، میانه باقیمانده 0.5099- و حداکثر باقیمانده 5.7078 بود.

ضرایب رگرسیونی

این بخش ضرایب تخمینی مدل رگرسیون را نمایش می دهد. می توانیم از این ضرایب برای تشکیل معادله رگرسیون تخمینی زیر استفاده کنیم:

mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*wt

برای هر متغیر پیش بینی، مقادیر زیر به ما داده می شود:

Estimate: ضریب تخمینی. این به ما می گوید که میانگین افزایش متغیر پاسخ مرتبط با افزایش یک واحدی در متغیر پیش بین، با فرض ثابت نگه داشتن سایر متغیرهای پیش بینی کننده.
Std. خطا: این خطای استاندارد ضریب است. این معیاری از عدم قطعیت در برآورد ما از ضریب است.
t value: این آماره t برای متغیر پیش بینی است که به صورت (Estimate) / (Std. Error) محاسبه می شود.
Pr(>|t|): این مقدار p است که با آماره t مطابقت دارد. اگر این مقدار کمتر از سطح آلفا باشد (مثلاً 0.05)، متغیر پیش‌بینی‌کننده از نظر آماری معنادار است.

اگر برای تعیین این که کدام پیش‌بینی‌کننده‌ها در این مدل رگرسیونی معنی‌دار هستند، از سطح آلفای 0.05 = α استفاده کنیم، می‌گوییم که hp و wt پیش‌بینی‌کننده‌های آماری معنی‌داری هستند در حالی که drat اینطور نیست.

آموزش آزمون کروسکال والیس در R

ارزیابی تناسب مدل رگرسیونی

این بخش آخر اعداد مختلفی را نشان می‌دهد که به ما کمک می‌کنند تا میزان مطابقت مدل رگرسیون با مجموعه داده‌های ما را ارزیابی کنیم.

خطای استاندارد باقیمانده: میانگین فاصله ای که مقادیر مشاهده شده از خط رگرسیون می افتند را به ما می گوید. هرچه مقدار کوچکتر باشد، مدل رگرسیون بهتر می تواند داده ها را برازش کند. درجات آزادی به صورت n-k-1 محاسبه می شود که در آن n = کل مشاهدات و k = تعداد پیش بینی کننده ها. در این مثال، mtcars دارای 32 مشاهده است و ما از 3 پیش بینی کننده در مدل رگرسیون استفاده کرده ایم، بنابراین درجه آزادی 32 – 3 – 1 = 28 است.
R-Squared چندگانه: این به عنوان ضریب تعیین شناخته می شود. نسبت واریانس در متغیر پاسخ را به ما می گوید که می تواند توسط متغیرهای پیش بینی توضیح داده شود. این مقدار از 0 تا 1 متغیر است. هر چه به 1 نزدیکتر باشد، متغیرهای پیش بینی بهتر می توانند مقدار متغیر پاسخ را پیش بینی کنند.
R-squared تنظیم شده: Ths یک نسخه اصلاح شده از R-squared است که برای تعداد پیش بینی کننده ها در مدل تنظیم شده است. همیشه کمتر از R-squared است. R-squared تنظیم شده می تواند برای مقایسه برازش مدل های رگرسیون مختلف که از تعداد متغیرهای پیش بینی متفاوتی استفاده می کنند مفید باشد.
آماره F: این نشان می دهد که آیا مدل رگرسیون تناسب بهتری با داده ها نسبت به مدلی که فاقد متغیر مستقل است فراهم می کند یا خیر. در اصل، آزمایش می کند که آیا مدل رگرسیون به عنوان یک کل مفید است یا خیر.
p-value: این مقدار p است که با آمار F مطابقت دارد. اگر این مقدار کمتر از سطح معنی داری باشد (به عنوان مثال 0.05)، آنگاه مدل رگرسیون بهتر از مدلی که هیچ پیش بینی کننده ای ندارد، با داده ها تناسب دارد.

هنگام ساخت مدل‌های رگرسیون، امیدواریم که این مقدار p کمتر از سطح معنی‌داری باشد زیرا نشان می‌دهد که متغیرهای پیش‌بینی‌کننده واقعاً برای پیش‌بینی مقدار متغیر پاسخ مفید هستند.

مطالعه منابع بیشتر:

How to Interpret Regression Output in R