آموزش رگرسیون در نرم افزار JASP

رگرسیون یک روش آماری است که امکان مدل سازی روابط بین یک متغیر وابسته و یک یا چند متغیر مستقل (پیش بین) را فراهم می کند. تحلیل رگرسیون امکان استنباط یا پیش بینی متغیر دیگری را بر اساس یک یا چند متغیر فراهم می کند. در این مقاله قصد دارم به آموزش رگرسیون در JASP بپردازم. تا انتهای این مقاله همراه کیارا آکادمی باشید تا آموزش نرم افزار JASP را به صورت کاربردی دریافت نمایید.

تجزیه و تحلیل رگرسیون در جسپ

شما در تحلیل رگرسیون قصد دارید بر اساس مقادیر متغیر پیش بین مقادیر متغیر وابسته را پیش بینی کنید. به عنوان مثال، ممکن است برای شما جالب باشد که چه چیزی بر حقوق یک فرد تأثیر می گذارد. برای این که متوجه شوید، می توانید سطح تحصیلات، ساعات کار هفتگی و سن افراد را در نظر بگیرید. می توانید بررسی کنید که آیا این سه متغیر بر حقوق یک فرد تأثیر دارند یا خیر. اگر چنین است، می توانید با استفاده از بالاترین سطح تحصیلات، ساعات کار هفتگی و سن افراد، حقوق افراد را پیش بینی کنید.

در رگرسیون متغیرهای وابسته و مستقل چیست؟ متغیری که باید پیش بینی شود، متغیر وابسته (ملاک) نامیده می شود. متغیرهایی که برای پیش بینی استفاده می شوند، متغیرهای مستقل (پیش بینی کننده) نامیده می شوند. بنابراین، در مثال بالا، حقوق متغیر وابسته و بالاترین میزان تحصیلات، ساعات کار هفتگی و سن متغیرهای مستقل هستند.

چه زمانی از تحلیل رگرسیون استفاده کنم؟

با انجام تحلیل رگرسیون می توان دو هدف را دنبال کرد. از یک طرف می توان تأثیر یک یا چند متغیر را بر متغیر دیگر اندازه گیری کرد و از طرف دیگر می توان از رگرسیون برای پیش بینی یک متغیر توسط یک یا چند متغیر دیگر استفاده کرد. مثلا:

1) اندازه گیری تأثیر یک یا چند متغیر بر متغیر دیگر
چه چیزی بر توانایی تمرکز کودکان تأثیر می گذارد؟
آیا سطح تحصیلات والدین و محل سکونت بر پیشرفت تحصیلی آینده فرزندان تأثیر دارد؟
2) پیش بینی یک متغیر توسط یک یا چند متغیر دیگر
بیمار چه مدت در بیمارستان می ماند؟
یک فرد بیشتر از یک فروشگاه اینترنتی چه محصولی را خریداری می کند؟

بنابراین تحلیل رگرسیون اطلاعاتی در مورد چگونگی تغییر مقدار متغیر وابسته در صورت تغییر یکی از متغیرهای مستقل ارائه می دهد.

انواع تحلیل رگرسیون

تجزیه و تحلیل رگرسیون به رگرسیون خطی ساده، رگرسیون خطی چندگانه و رگرسیون لجستیک تقسیم می شود. نوع تحلیل رگرسیونی که باید استفاده شود، به تعداد متغیرهای مستقل و مقیاس اندازه گیری متغیر وابسته بستگی دارد.

رگرسیون خطی ساده در JASP

وظیفه رگرسیون خطی ساده برازش دقیق خط مستقیمی است که به بهترین وجه رابطه خطی بین متغیر وابسته و مستقل را تبیین می کند. در تحلیل رگرسیون خطی، یک خط مستقیم در نمودار پراکندگی رسم می شود. برای تعیین این خط مستقیم، رگرسیون خطی از روش حداقل مربعات استفاده می کند. خط رگرسیون را می توان با معادله زیر توصیف کرد:

تعریف ضرایب رگرسیون:

a: نقطه تقاطع با محور y
b: عرض از مبدا
ŷ برآورد مربوطه از مقدار y است. این بدان معنی است که برای هر x-value مقدار y مربوطه تخمین زده می شود. در مثال ما، این بدان معناست که از قد افراد برای تخمین وزن آنها استفاده می شود.

اجرای رگرسیون خطی در نرم افزار جسپ

در این بخش به اجرای رگرسیون خطی در نرم افزار جسپ می پردازیم. اگر می خواهید فقط از یک متغیر برای پیش بینی استفاده کنید، از یک رگرسیون ساده استفاده می شود.

برای اجرا باید از بین منو ها به بخش رگرسیون بروید:

در گام بعدی باید متغیر های ملاک و پیش بین را وارد تحلیل کنید. اگر یک متغیر پیش بین وارد کنید می شود رگرسیون ساده و اگر بیش از یک پیش بین وارد کنید رگرسیون چندگانه اجرا می شود:

روشی که من در این تحلیل استفاده کرده ام رگرسیون همزمان استفاده کرده ام . شما می توانید برای اجرای رگرسیون چندگانه از روش رگرسیون سلسله مراتبی استفاده کنید:

خروجی رگرسیون چندگانه برای شما بلافاصله نمایان می شود:

اگر از بیش از یک متغیر استفاده می کنید، باید یک رگرسیون چندگانه انجام دهید. اگر متغیر وابسته به صورت اسمی مقیاس بندی شده باشد، باید یک رگرسیون لجستیک محاسبه شود. اگر متغیر وابسته به صورت متریک مقیاس بندی شده باشد، از رگرسیون خطی استفاده می شود. این که از رگرسیون خطی یا غیرخطی استفاده شود بستگی به خود رابطه دارد. برای انجام رگرسیون خطی، یک رابطه خطی بین متغیرهای مستقل و متغیر وابسته ضروری است.

متغیر مستقل در رگرسیون

صرف نظر از این که کدام روش رگرسیون محاسبه می شود، سطح مقیاس متغیرهای مستقل می تواند به هر شکلی باشد (فاصله ای، ترتیبی و اسمی). اما اگر یک متغیر ترتیبی یا اسمی با بیش از دو مقدار وجود داشته باشد، به اصطلاح باید متغیرهای ساختگی تشکیل شوند. هنگامی که یک متغیر مستقل طبقه‌بندی می‌شود، قبل از این که در مدل رگرسیون گنجانده شود، به عنوان مجموعه‌ای از متغیرهای ساختگی باینری کدگذاری می‌شود. هنگامی که متغیرهای ساختگی ایجاد می شوند، یک متغیر با چندین دسته به چندین متغیر با تنها 2 دسته تبدیل می شود. یکی از دسته ها به عنوان رده مرجع تنظیم می شود و برای هر یک از دسته های باقی مانده یک متغیر جدید ایجاد می شود. قبل از هر چیزی پیشنهاد می دهم در دوره آموزش تحلیل آماری با نرم افزار جسپ (JASP) شرکت کنید. برای مشاهده دوره کافی است روی لینک زیر کلیک فرمایید:

همبستگی و علیت در تحلیل رگرسیون

در مورد رگرسیون خطی، در صورت وجود همبستگی بین دو متغیر، می توان از متغیر مستقل برای پیش بینی متغیر وابسته استفاده کرد. با این حال، آنچه که توجه به آن مهم است این است که همبستگی بین دو متغیر لزوماً به معنای علیت نیست. خوب این به چه معنا است؟ اگر مقادیر بالای یک متغیر با مقادیر بالای متغیر دیگر همراه باشد، به این معنی نیست که مقادیر یک متغیر افزایش می‌یابد زیرا مقادیر متغیر دیگر افزایش می‌یابد. ضریب رگرسیون b اکنون می تواند نشانه های مختلفی داشته باشد که می توان آنها را به صورت زیر تفسیر کرد:

b > 0	بین x و y همبستگی مثبت وجود دارد (هرچه x بزرگتر، y بیشتر باشد)
b < 0	بین x و y همبستگی منفی وجود دارد (هرچه x بزرگتر، y کوچکتر)
b = 0	بین x و y همبستگی وجود ندارد

رگرسیون خطی چندگانه در جسپ

بر خلاف رگرسیون خطی ساده، رگرسیون خطی چندگانه اجازه می دهد تا بیش از دو متغیر مستقل در نظر گرفته شود. هدف برآورد یک متغیر بر اساس چندین متغیر دیگر است. متغیری که باید تخمین زده شود، متغیر وابسته (معیار) نامیده می شود. متغیرهایی که برای پیش بینی استفاده می شوند، متغیرهای مستقل (پیش بینی کننده) نامیده می شوند. رگرسیون خطی چندگانه اغلب در تحقیقات اجتماعی تجربی و همچنین در تحقیقات بازار استفاده می شود. در هر دو حوزه جالب است که بفهمیم عوامل مختلف چه تأثیری بر یک متغیر دارند. به عنوان مثال، چه عواملی بر سلامت یا رفتار خرید یک فرد تأثیر می گذارد؟

مثال بازاریابی: برای یک سرویس پخش ویدیو باید پیش بینی کنید که یک شخص چند بار در ماه ویدیوها را پخش می کند. برای این شما یک رکورد از داده های کاربر (سن، درآمد، جنسیت، …) دریافت می کنید.
مثال پزشکی: شما می خواهید دریابید که چه عواملی بر سطح کلسترول بیماران تأثیر دارند. برای این منظور، مجموعه داده های بیمار را با سطح کلسترول، سن، ساعت ورزش در هفته و غیره تجزیه و تحلیل می کنید.

رگرسیون چند متغیره در جسپ

رگرسیون چندگانه را نباید با رگرسیون چند متغیره اشتباه گرفت. در مورد اول، تأثیر چندین متغیر مستقل بر یک متغیر وابسته بررسی می‌شود. در حالت دوم، چندین مدل رگرسیون محاسبه می‌شود تا بتوان در مورد چندین متغیر وابسته نتیجه‌گیری کرد. در نتیجه، در یک رگرسیون چندگانه، یک متغیر وابسته در نظر گرفته می شود، در حالی که در یک رگرسیون چند متغیره، چندین متغیر وابسته تحلیل می شود.

ضریب تعیین در تحلیل رگرسیون

برای اینکه بدانیم مدل رگرسیون تا چه اندازه می تواند متغیر وابسته را پیش بینی یا توضیح دهد، از دو معیار اصلی استفاده می شود. این از یک طرف ضریب تعیین R2 و از طرف دیگر خطای برآورد استاندارد است. ضریب تعیین R2 که به عنوان توضیح واریانس نیز شناخته می شود، نشان می دهد که چه مقدار از واریانس می تواند توسط متغیرهای مستقل توضیح داده شود. هرچه بتوان واریانس بیشتری را توضیح داد، مدل رگرسیون بهتر است.

R2 تنظیم شده یا Adjusted R2

ضریب تعیین R2 تحت تأثیر تعداد متغیرهای مستقل مورد استفاده قرار می گیرد. هر چه متغیرهای مستقل بیشتری در مدل رگرسیونی گنجانده شوند، وضوح واریانس R2 بیشتر است. برای در نظر گرفتن این موضوع، از R2 تنظیم شده استفاده می شود.

برای رگرسیون خطی ساده و چندگانه از ضریب تعیین و خطای تخمین استاندارد استفاده می شود. ضریب رگرسیون بین ضریب رگرسیون استاندارد و غیر استاندارد متمایز می شود. ضرایب رگرسیون غیراستاندارد ضرایبی هستند که در معادله رگرسیون رخ می دهند یا استفاده می شوند و به اختصار b می باشند. ضرایب رگرسیون استاندارد شده با ضرب ضریب رگرسیون bi در انحراف استاندارد متغیر وابسته Sxi و تقسیم بر انحراف استاندارد متغیر مستقل مربوطه Sy به دست می‌آید.

مفروضات رگرسیون خطی در جسپ

برای تفسیر معنادار نتایج تحلیل رگرسیون، باید شرایط خاصی رعایت شود.

خطی بودن: باید یک رابطه خطی بین متغیرهای وابسته و مستقل وجود داشته باشد.
Homoscedasticity: باقیمانده ها باید یک واریانس ثابت داشته باشند.
نرمال بودن: خطای معمولی توزیع شده
عدم وجود چند خطی: همبستگی بالایی بین متغیرهای مستقل وجود ندارد
بدون همبستگی خودکار: جزء خطا نباید همبستگی خودکار داشته باشد

مفروضه خطی بودن برای رگرسیون

در رگرسیون خطی، یک خط مستقیم از میان داده ها ترسیم می شود. این خط مستقیم باید تمام نقاط را به بهترین شکل ممکن نشان دهد. اگر نقاط به صورت غیر خطی توزیع شوند، خط مستقیم نمی تواند این وظیفه را انجام دهد.

خطی بودن فرض رگرسیون خطی

در نمودار بالا سمت چپ، یک رابطه خطی بین متغیر وابسته و مستقل وجود دارد، از این رو خط رگرسیون را می توان به طور معنی داری در آن قرار داد. در نمودار سمت راست می بینید که یک رابطه غیرخطی به وضوح بین وابسته و متغیر وجود دارد. متغیر مستقل بنابراین نمی توان خط رگرسیون را در میان نقاط به صورت معنادار قرار داد. به همین دلیل، ضرایب را نمی توان با مدل رگرسیون معنی دار تفسیر کرد و ممکن است خطاهایی در پیش بینی بیشتر از حد تصور وجود داشته باشد. بنابراین مهم است که از قبل بررسی شود که آیا رابطه خطی بین متغیر وابسته و هر یک از متغیرهای مستقل وجود دارد یا خیر. این معمولا به صورت گرافیکی بررسی می شود.

مفروضه همسانی واریانس در رگسیون

از آن جایی که در عمل مدل رگرسیون هرگز دقیقاً متغیر وابسته را پیش‌بینی نمی‌کند، همیشه یک خطا وجود دارد. این خطا باید یک واریانس ثابت در محدوده پیش بینی شده داشته باشد. برای آزمایش همسانی، یعنی واریانس ثابت باقیمانده ها، متغیر وابسته روی محور x و خطا روی محور y رسم می شود. اکنون خطا باید به طور مساوی در کل محدوده پراکنده شود. اگر چنین باشد، همجنسگرایی وجود دارد. اگر اینطور نباشد، هتروسکداستیکی وجود دارد. در مورد ناهمسانی، خطا بسته به محدوده مقدار متغیر وابسته، واریانس های متفاوتی دارد.

مفروضه توزیع نرمال خطا در رگسیون

شرط بعدی رگرسیون خطی این است که اپسیلون خطا باید به طور عادی توزیع شود. دو راه برای پیدا کردن آن وجود دارد: یکی روش تحلیلی و دیگری روش گرافیکی. در روش تحلیلی می توانید از آزمون کولموگروف-اسمیرنوف یا آزمون شاپیرو-ویلک استفاده کنید. اگر مقدار p بزرگتر از 0.05 باشد، انحراف داده ها از توزیع نرمال وجود ندارد و می توان فرض کرد که داده ها به طور نرمال توزیع شده اند. توزیع نرمال رگرسیون خطا. با این حال، این آزمون‌های تحلیلی کمتر و کمتر مورد استفاده قرار می‌گیرند، زیرا تمایل دارند توزیع نرمال را برای نمونه‌های کوچک تأیید کنند و خیلی سریع برای نمونه‌های بزرگ معنادار می‌شوند، بنابراین فرضیه صفر مبنی بر این که داده‌ها به طور معمول توزیع شده‌اند را رد می‌کنند. بنابراین، نوع گرافیکی به طور فزاینده ای مورد استفاده قرار می گیرد.

مفروضه چند خطی در رگرسیون

چند خطی بودن به این معنی است که دو یا چند متغیر مستقل به شدت با یکدیگر همبستگی دارند. مشکل چند خطی بودن این است که اثرات هر متغیر مستقل را نمی توان به وضوح از یکدیگر جدا کرد. برای مثال، اگر همبستگی بالایی بین x1 و x2 وجود داشته باشد، تعیین b1 و b2 دشوار است. اگر هر دو به عنوان مثال کاملاً برابر است، مدل رگرسیون نمی‌داند b1 و b2 چقدر باید باشد و ناپایدار می‌شود. البته اگر از مدل رگرسیون فقط برای پیش بینی استفاده شود، این غم انگیز نیست. در مورد یک پیش‌بینی، شخص فقط به پیش‌بینی علاقه دارد، اما نه اینکه تأثیر متغیرهای مربوطه چقدر زیاد است. با این حال، اگر از مدل رگرسیون برای اندازه‌گیری تأثیر متغیرهای مستقل بر متغیر وابسته استفاده شود و در صورت وجود چند خطی بودن، ضرایب قابل تفسیر نیستند.

رگرسیون لجستیک در JASP

رگرسیون لجستیک زمانی استفاده می شود که متغیر وابسته به صورت اسمی یا ترتیبی سنجیده شده باشد. این مورد است، به عنوان مثال، با تصمیم خرید متغیر با دو مقدار، یک محصول را خریداری می کند و یک محصول را نمی خرد. بنابراین تحلیل رگرسیون لجستیک همتای رگرسیون خطی است که در آن متغیر وابسته مدل رگرسیون حداقل باید مقیاس فاصله ای باشد.

با رگرسیون لجستیک اکنون می توان متغیر وابسته را توضیح داد و یا احتمال وقوع دسته های متغیر را تخمین زد.

مثال تجاری: برای یک خرده‌فروش آنلاین، باید پیش‌بینی کنید که مشتری خاص کدام محصول را بیشتر خریداری می‌کند. برای این کار، مجموعه داده ای را با بازدیدکنندگان قبلی و خریدهای آنها از خرده فروش آنلاین دریافت می کنید.
مثال پزشکی: شما می خواهید بررسی کنید که آیا یک فرد مستعد ابتلا به یک بیماری خاص است یا خیر. برای این منظور، مجموعه داده ای با افراد بیمار و غیر بیمار و همچنین سایر پارامترهای پزشکی دریافت می کنید.
مثال سیاسی: اگر انتخابات آخر هفته آینده برگزار شود، آیا شخصی به حزب A رای می دهد؟

رگرسیون لجستیک چیست؟

در شکل اصلی رگرسیون لجستیک، متغیرهای دوگانه (0 یا 1) قابل پیش بینی هستند. برای این منظور، احتمال وقوع مقدار 1 (= حال مشخصه) برآورد می شود.

رگرسیون لجستیک دوگانه در جسپ

به عنوان مثال، در پزشکی، یک روش مکرر این است که بفهمیم کدام متغیرها بر یک بیماری تأثیر دارند. در این مورد، 0 می تواند برای بیمار نشده و 1 برای بیمار باشد. در ادامه، تأثیر سن، جنسیت و وضعیت مصرف سیگار (سیگاری یا غیر سیگاری) بر این بیماری خاص قابل بررسی است. در رگرسیون خطی، از متغیرهای مستقل (به عنوان مثال، سن و جنسیت) برای تخمین مقدار خاص متغیر وابسته (به عنوان مثال، وزن بدن) استفاده می شود. از طرف دیگر، در رگرسیون لجستیک، متغیر وابسته دوقطبی است (0 یا 1) و احتمال وقوع عبارت 1 برآورد می شود. اگر به مثال بالا برگردیم، این بدان معناست: اگر فرد مورد نظر سن، جنس و وضعیت سیگاری معینی داشته باشد، چقدر احتمال وجود بیماری وجود دارد.

برای انجام این کار، لازم است محدوده مقادیر برای پیش بینی را به محدوده بین 0 و 1 محدود کنیم. برای اطمینان از این که فقط مقادیر بین 0 و 1 امکان پذیر است، از تابع لجستیک f استفاده می شود. مدل لجستیک بر اساس تابع منطقی است. نکته ویژه در مورد تابع لجستیک این است که برای مقادیر بین منهای و بعلاوه بی نهایت، همیشه فقط مقادیر بین 0 و 1 را در نظر می گیرد. بنابراین تابع لجستیک برای توصیف احتمال P(y=1) عالی است.

اجرای رگرسیون لجستیک در جسپ

برای شروع بر روی گزینه رگرسیون لجستیک کلیک کنید:

سپس باید متغیر وابسته که به صورت کیفی است را وارد کنید و متغیرهای پیش بین را وارد تحلیل کنید:

تفسیر رگرسیون لجستیک در جسپ

اکنون باید خروجی های نرم افزار را گزارش بدید:

رگرسیون لجستیک چند جمله ای در جسپ

تا زمانی که متغیر وابسته دو ویژگی داشته باشد (مثلاً مذکر، مؤنث)، یعنی دوگانه باشد، از رگرسیون لجستیک باینری (دو جمله ای) استفاده می شود. با این حال، اگر متغیر وابسته بیش از دو نمونه داشته باشد، به عنوان مثال تحرک سفر فرد به محل کار (ماشین، حمل و نقل عمومی، دوچرخه)، باید از رگرسیون لجستیک چند جمله ای استفاده شود. هر عبارت متغیر تحرک (ماشین، حمل و نقل عمومی، دوچرخه) به یک متغیر جدید تبدیل می شود. مفهوم تحرک یک متغیر به سه متغیر جدید تبدیل می شود: