Name: دوره آموزش SAS - کیارا آکادمی
Price: 1015000 IRT
Availability: InStock
Rating: 5.00 (1 reviews)

توضیحات

در دوره آموزش SAS همراه من باشید تا به صورت کامل تحلیل داده ها را در نرم افزار SAS بیاموزید. من در دوره آموزش تحلیل آماری با SAS سعی کرده ام جامع ترین آموزش تحلیل آماری با SAS در ایران را آموزش بدهم.

نرم افزار SAS چیست؟

فرم کامل SAS نرم افزار تجزیه و تحلیل آماری است. این نرم افزار در سال 1960 ایجاد شد و برای هوش تجاری، تجزیه و تحلیل پیش بینی کننده، تجزیه و تحلیل توصیفی و تجویزی، مدیریت داده ها و ….. مورد استفاده قرار گرفت. ویژگی های زیر را در نرم افزار SAS ارائه می دهد:

محیط SAS خود را با فعال کردن پردازش شبکه، اولویت بندی برنامه ها و کاربران و استفاده از کل زیرساخت موجود خود مدرن کنید.
از طیف وسیعی از منابع داده ابری استفاده کنید، داده های بزرگ را در جایی که در آن قرار دارند پردازش کنید و در جایی که انتخاب می کنید در جریان، ابر، دریاچه داده یا در عملیات مستقر می شود. شما نهایت انعطاف را دارید.
به راحتی SAS را مستقر می کند. داشتن نقاط ادغام نرم افزاری کمتر، نصب، نگهداری و پشتیبانی را ساده می کند. می توانید استراتژی توزیع کانتینر را برای کاربران جدید دنبال کنید. طبقه میانی خوشه ای بدون توجه به آنچه انتخاب می کنید، در دسترس بودن بالایی را فراهم می کند.

این نرم افزار ویژگی های زیر را در نرم افزار SAS ارائه می دهد:

دسترسی به بسیاری از عملکردهای SAS
یک رابط بصری، بصری و قابل تنظیم
دسترسی شفاف به داده ها
کارهای آماده برای تجزیه و تحلیل و گزارش
راه های آسان برای صادرات داده ها و نتایج به برنامه های کاربردی دیگر
اسکریپت نویسی و اتوماسیون
یک ابزار ویرایش کد

تجزیه و تحلیل آماری با استفاده از SAS

مهم است که نوع متغیرهایی را که دارید در نظر بگیرید (یعنی اینکه آیا متغیرهای شما دسته بندی، ترتیبی یا فاصله ای هستند و اینکه آیا آنها به طور معمول توزیع می شوند)، ببینید تفاوت بین طبقه بندی، ترتیبی چیست. بیشتر نمونه های موجود در این صفحه از یک فایل داده به نام hsb2 استفاده می کنند. این فایل داده شامل 200 مشاهدات از نمونه ای از دانش آموزان دبیرستانی با اطلاعات جمعیت شناختی دانش آموزان از قبیل جنسیت (مونث)، وضعیت اجتماعی-اقتصادی (ses) و پیشینه قومی (نژاد) آنها می باشد. همچنین شامل تعدادی نمرات در آزمون‌های استاندارد، از جمله آزمون‌های خواندن (خواندن)، نوشتن (نوشتن)، ریاضیات (ریاضی) و مطالعات اجتماعی (socst) است.

آزمون تی یک نمونه در SAS

آزمون t تک نمونه ای به ما اجازه می دهد تا آزمایش کنیم که آیا میانگین نمونه (از یک متغیر بازه معمولی توزیع شده) به طور قابل توجهی با مقدار فرضی متفاوت است یا خیر. به عنوان مثال، با استفاده از فایل داده hsb2، می‌گوییم که می‌خواهیم آزمایش کنیم که آیا میانگین نمره نوشتن (نوشتن) تفاوت قابل توجهی با 50 دارد یا خیر. می‌توانیم این کار را مطابق شکل زیر انجام دهیم.

میانگین متغیر نوشتن برای این نمونه خاص از دانش‌آموزان 775/52 است که از نظر آماری تفاوت معنی‌داری با مقدار آزمون 50 دارد. نتیجه می‌گیریم که میانگین این گروه از دانش‌آموزان در آزمون نوشتاری به‌طور معنی‌داری بالاتر از 50 است.

آزمون میانه در SAS

آزمون میانه یک نمونه به ما امکان می دهد آزمایش کنیم که آیا میانه نمونه به طور قابل توجهی با مقدار فرضی متفاوت است یا خیر. ما از همان متغیری استفاده می کنیم، می نویسیم، همانطور که در مثال نمونه t-test بالا انجام دادیم، اما نیازی نیست فرض کنیم که آن فاصله ای است و به طور معمول توزیع شده است (فقط باید فرض کنیم که نوشتن یک متغیر ترتیبی است). ما آزمایش خواهیم کرد که آیا میانگین نمره نوشتن (نوشتن) به طور قابل توجهی با 50 تفاوت دارد یا خیر؟

می توانید از آزمون نشانه یا آزمون رتبه امضا شده استفاده کنید. تفاوت بین این دو آزمون این است که رتبه علامت دار مستلزم آن است که متغیر از یک توزیع متقارن باشد. نتایج نشان می دهد که میانه متغیر نوشتن برای این گروه از نظر آماری با 50 تفاوت معناداری دارد.

آزمون دو جمله ای در SAS

آزمون دو جمله ای یک نمونه به ما امکان می دهد آزمایش کنیم که آیا نسبت موفقیت ها در یک متغیر وابسته طبقه بندی دو سطحی به طور قابل توجهی با مقدار فرضی متفاوت است یا خیر. به عنوان مثال، با استفاده از فایل داده hsb2، می‌گوییم که می‌خواهیم آزمایش کنیم که آیا نسبت زنان (مونث) به طور قابل توجهی از 50% متفاوت است، یعنی از 0.5. ما از عبارت exact برای تولید مقادیر دقیق p استفاده خواهیم کرد.

نتایج نشان می دهد که از نظر آماری تفاوت معنی داری وجود ندارد (2292/0=p). به عبارت دیگر، نسبت زنان در این نمونه تفاوت معناداری با مقدار فرضی 50 درصدی ندارد.

آزمون مجذور کای برای برازش در SAS

آزمون کای دو به ما اجازه می دهد تا آزمایش کنیم که آیا نسبت های مشاهده شده برای یک متغیر طبقه بندی شده با نسبت های فرضی متفاوت است یا خیر. به عنوان مثال، فرض کنید که ما معتقدیم که جمعیت عمومی شامل 10٪ اسپانیایی تبار، 10٪ آسیایی، 10٪ آفریقایی آمریکایی و 70٪ مردم سفید است. ما می خواهیم آزمایش کنیم که آیا نسبت های مشاهده شده از نمونه ما به طور قابل توجهی با این نسبت های فرضی متفاوت است یا خیر. نسبت های فرضی در داخل پرانتز بعد از گزینه testp= در دستور جداول قرار می گیرند.

این نتایج نشان می‌دهد که ترکیب نژادی در نمونه ما تفاوت قابل‌توجهی با مقادیر فرضی ارائه‌شده ندارد (کای دو با سه درجه آزادی = 5.0286، p = 0.1697).

آزمون t دو نمونه ای یا تی مستقل در SAS

آزمون t نمونه های مستقل زمانی استفاده می شود که می خواهید میانگین یک متغیر وابسته بازه معمولی توزیع شده را برای دو گروه مستقل مقایسه کنید. برای مثال، با استفاده از فایل داده hsb2، می‌گوییم که می‌خواهیم آزمایش کنیم که آیا میانگین نوشتن برای مردان و زنان یکسان است یا خیر.

نتایج نشان می‌دهد که تفاوت آماری معنی‌داری بین میانگین نمره نوشتاری مردان و زنان وجود دارد (73/3- = t، 0002/0 = p). به عبارت دیگر، زنان از لحاظ آماری میانگین نمره بالاتری در نوشتن (54.991) نسبت به مردان (50.121) دارند.

تست Wilcoxon-Mann-Whitney در SAS

آزمون Wilcoxon-Mann-Whitney یک آنالوگ ناپارامتری با آزمون t نمونه های مستقل است و زمانی می توان از آن استفاده کرد که شما فرض نکنید که متغیر وابسته یک متغیر بازه ای است که به طور معمول توزیع شده است (فقط باید فرض کنید که متغیر حداقل است. ترتیبی). ما از همان فایل داده (فایل داده hsb2) و متغیرهای مشابهی در این مثال استفاده خواهیم کرد که در مثال t-test مستقل بالا استفاده کردیم و فرض نمی کنیم که نوشتن، متغیر وابسته ما، به طور معمول توزیع شده است.

نتایج نشان می‌دهد که از نظر آماری تفاوت معناداری بین توزیع‌های اساسی نمرات نوشتن مردان و نمرات نوشتن زنان وجود دارد (329/3 = z، 0009/0 = p).

آزمون Chi-Square در SAS

از آزمون کای اسکوئر زمانی استفاده می شود که بخواهید ببینید آیا بین دو متغیر طبقه بندی رابطه وجود دارد یا خیر. در SAS، از گزینه chisq در دستور جداول برای بدست آوردن آمار آزمون و مقدار p مربوط به آن استفاده می شود. با استفاده از فایل داده hsb2، بیایید ببینیم که آیا رابطه ای بین نوع مدرسه تحصیل شده (schtyp) و جنسیت دانش آموزان (مونث) وجود دارد یا خیر. به یاد داشته باشید که آزمون کای دو فرض می کند که مقدار مورد انتظار برای هر سلول 5 یا بیشتر است. این فرض در مثال های زیر به راحتی برآورده می شود. با این حال، اگر این فرض در داده‌های شما برآورده نشد، لطفاً بخش تست دقیق فیشر را در زیر ببینید.

این نتایج حاکی از آن است که رابطه آماری معناداری بین نوع مدرسه تحصیل شده و جنسیت وجود ندارد (کای دو با یک درجه آزادی = 0.0470، p = 0.8283). بیایید به مثال دیگری نگاه کنیم، این بار به رابطه بین جنسیت (زن) و وضعیت اجتماعی-اقتصادی (ses). نکته این مثال این است که یک (یا هر دو) متغیر ممکن است بیش از دو سطح داشته باشند و لازم نیست که متغیرها تعداد سطوح یکسانی داشته باشند. در این مثال، ماده دارای دو سطح (نر و ماده) و ses دارای سه سطح (کم، متوسط و زیاد) است.

باز هم متوجه شدیم که هیچ رابطه آماری معنی داری بین متغیرها وجود ندارد (کای دو با دو درجه آزادی = 4.5765، p = 0.1014).

تست دقیق فیشر در SAS

تست دقیق فیشر زمانی استفاده می‌شود که می‌خواهید آزمایش کای‌دو انجام دهید، اما یک یا چند سلول شما فرکانس مورد انتظار کمتر از پنج را دارند. به یاد داشته باشید که آزمون خی دو فرض می کند که هر سلول دارای فراوانی مورد انتظار پنج یا بیشتر است، اما آزمون دقیق فیشر چنین فرضی را ندارد و می تواند صرف نظر از اینکه فرکانس مورد انتظار چقدر کوچک است مورد استفاده قرار گیرد. در مثال زیر، سلول‌هایی با فرکانس‌های مشاهده‌شده دو و یک داریم که ممکن است فراوانی مورد انتظار را نشان دهد که می‌تواند زیر پنج باشد، بنابراین از آزمون دقیق فیشر با گزینه فیشر در عبارت جداول استفاده می‌کنیم.

این نتایج نشان می دهد که رابطه آماری معنی داری بین نژاد و نوع مدرسه وجود ندارد (5975/0 = p). توجه داشته باشید که آزمون دقیق فیشر دارای «آمار آزمون» نیست، اما مقدار p را مستقیماً محاسبه می‌کند.

ANOVA یک طرفه در SAS

تجزیه و تحلیل واریانس یک طرفه (ANOVA) زمانی استفاده می شود که شما یک متغیر مستقل طبقه بندی شده (با دو یا چند دسته) و یک متغیر وابسته با فاصله معمولی توزیع شده داشته باشید و بخواهید تفاوت های میانگین متغیر وابسته را به صورت تفکیک شده آزمایش کنید. سطوح متغیر مستقل به عنوان مثال، با استفاده از فایل داده hsb2، فرض کنید که می خواهیم آزمایش کنیم که آیا میانگین نوشتن بین سه نوع برنامه (prog) متفاوت است یا خیر. همچنین از دستور میانگین برای خروجی میانگین نوشتن برای هر سطح از نوع برنامه استفاده خواهیم کرد. توجه داشته باشید که این به شما نمی گوید که آیا تفاوت آماری معنی داری بین هر دو مجموعه میانگین وجود دارد یا خیر؟

میانگین متغیر وابسته در سطوح نوع برنامه به طور قابل توجهی متفاوت است. با این حال، ما نمی دانیم که تفاوت فقط بین دو سطح است یا هر سه سطح. (تست F برای مدل همان تست F برای prog است زیرا prog تنها متغیر وارد شده به مدل بود. اگر متغیرهای دیگر نیز وارد شده بودند، آزمون F برای مدل با prog متفاوت بود.) ما همچنین می توانید ببینید که دانش آموزان در برنامه تحصیلی بالاترین میانگین نمره نوشتن را دارند، در حالی که دانش آموزان در برنامه حرفه ای کمترین امتیاز را دارند.

تست کروسکال والیس در SAS

آزمون کروسکال والیس زمانی استفاده می شود که یک متغیر مستقل با دو یا چند سطح و یک متغیر وابسته ترتیبی داشته باشید. به عبارت دیگر، این نسخه ناپارامتریک ANOVA است. همچنین یک شکل تعمیم یافته از روش آزمون من ویتنی است، زیرا اجازه دو یا چند گروه را می دهد. ما از همان فایل داده ای به عنوان مثال ANOVA یک طرفه بالا (فایل داده hsb2) و متغیرهای مشابه در مثال بالا استفاده خواهیم کرد، اما فرض نمی کنیم که نوشتن یک متغیر بازه ای توزیع شده عادی است.

نتایج حاکی از آن است که بین سه نوع برنامه (کای اسکوئر با دو درجه آزادی = 34.0452، p = 0.0001) از نظر آماری تفاوت معناداری وجود دارد.

آزمون تی زوجی در SAS

آزمون t زوجی (نمونه‌ای) زمانی استفاده می‌شود که شما دو مشاهده مرتبط داشته باشید (یعنی دو مشاهده برای هر موضوع) و می‌خواهید ببینید که آیا میانگین این دو متغیر بازه‌ای که معمولاً توزیع شده‌اند با یکدیگر متفاوت هستند یا خیر. به عنوان مثال، با استفاده از فایل داده hsb2، آزمایش خواهیم کرد که آیا میانگین خواندن با میانگین نوشتن برابر است یا خیر.

این نتایج نشان می دهد که میانگین خواندن تفاوت آماری معنی داری با میانگین نوشتن ندارد (t = 0.87، p = 0.3868).

آزمون ویلکاکسون در SAS

آزمون مجموع رتبه امضا شده ویلکاکسون نسخه ناپارامتریک آزمون t نمونه های زوجی است. هنگامی که نمی خواهید فرض کنید که تفاوت بین دو متغیر فاصله ای است و به طور معمول توزیع شده است (اما شما فرض می کنید که تفاوت ترتیبی است) از آزمون جمع رتبه امضا شده Wilcoxon استفاده می کنید. ما از همان مثال بالا استفاده خواهیم کرد، اما فرض نمی کنیم که تفاوت بین خواندن و نوشتن، فاصله ای است و به طور معمول توزیع می شود. ابتدا یک مرحله داده برای ایجاد تفاوت بین دو نمره برای هر موضوع انجام می دهیم. این ضروری است زیرا SAS تفاوت را برای شما در تک متغیره proc محاسبه نمی کند.

نتایج نشان می دهد که از نظر آماری تفاوت معنی داری بین خواندن و نوشتن وجود ندارد. اگر فکر می‌کنید که تفاوت‌های بین خواندن و نوشتن ترتیبی نبودند، بلکه می‌توانستند آنها را صرفاً به‌عنوان مثبت و منفی طبقه‌بندی کنند، ممکن است بخواهید به جای آزمون رتبه‌بندی علامت، یک آزمون نشانه را در نظر بگیرید. توجه داشته باشید که خروجی SAS نتایج را هم برای تست رتبه امضا شده Wilcoxon و هم برای تست علامت بدون نیاز به استفاده از هیچ گزینه ای به شما می دهد. با استفاده از آزمون علامت، مجدداً به این نتیجه می رسیم که از نظر آماری تفاوت معنی داری بین خواندن و نوشتن وجود ندارد (5565/0=p).

تست مک نمار در SAS

اگر به فراوانی های حاشیه ای دو نتیجه باینری علاقه مند هستید، آزمون مک نمار را انجام می دهید. این نتایج باینری ممکن است همان متغیر نتیجه در جفت‌های همسان (مانند مطالعه مورد-شاهدی) یا دو متغیر نتیجه از یک گروه واحد باشد. اجازه دهید دو سوال Q1 و Q2 را از آزمونی که توسط 200 دانش آموز گرفته شده است در نظر بگیریم. فرض کنید 172 دانش آموز به هر دو سوال پاسخ صحیح داده اند، 15 دانش آموز به هر دو سوال اشتباه پاسخ داده اند، 7 نفر به Q1 پاسخ صحیح و Q2 اشتباه و 6 دانش آموز به Q2 پاسخ صحیح و Q1 اشتباه داده اند. این تعداد را می توان در یک جدول احتمالی دو طرفه در نظر گرفت. فرضیه صفر این است که به دو سوال با یک نرخ پاسخ صحیح یا نادرست داده شده است (یا اینکه جدول احتمالی متقارن است).

آمار آزمون مک نمار نشان می دهد که تفاوت آماری معنی داری در نسبت پاسخ های صحیح/نادرست به این دو سوال وجود ندارد.

واریانس اندازه گیری های مکرر یک طرفه در SAS

اگر یک متغیر مستقل طبقه بندی شده و یک متغیر وابسته به فاصله معمولی توزیع شده داشته باشید که حداقل دو بار برای هر موضوع تکرار شده باشد، یک تحلیل واریانس با اندازه گیری های مکرر یک طرفه انجام می دهید. این معادل آزمون t نمونه های زوجی است، اما دو یا چند سطح از متغیر طبقه بندی را امکان پذیر می کند. ANOVA اندازه گیری های تکراری یک طرفه آزمایش می کند که آیا میانگین متغیر وابسته با متغیر طبقه بندی متفاوت است یا خیر. ما یک مجموعه داده نمونه به نام rb4wide داریم که در کتاب طراحی تجربی کرک استفاده شده است. در این مجموعه داده، y1 y2 y3 و y4 نشان دهنده متغیر وابسته اندازه گیری شده در 4 سطح a، متغیر مستقل اندازه گیری مکرر است.

نتایج نشان می دهد که مدل و همچنین هر دو عامل (a و s) از نظر آماری معنی دار هستند. مقدار p داده شده در این خروجی برای a (0.0001) مقدار p “منظم” است و مقدار p است که اگر تقارن مرکب را در ماتریس واریانس-کوواریانس فرض کنید به دست می آورید.

رگرسیون لجستیک با اندازه گیری های مکرر در SAS

اگر یک نتیجه باینری دارید که به طور مکرر برای هر موضوع اندازه‌گیری می‌شود و می‌خواهید یک رگرسیون لجستیکی را اجرا کنید که تأثیر چندین معیار از سوژه‌های منفرد را محاسبه می‌کند، می‌توانید یک رگرسیون لجستیک اندازه‌گیری مکرر انجام دهید. در SAS، این کار را می توان با استفاده از رویه genmod و نشان دادن دو جمله ای به عنوان توزیع احتمال و لاجیت به عنوان تابع پیوندی که در مدل استفاده می شود انجام داد. فایل داده‌های تمرین شامل سه اندازه‌گیری نبض از هر 30 نفر است که به دو رژیم غذایی مختلف و سه هنگ ورزشی مختلف اختصاص داده شده‌اند. اگر نبض «بالا» را بیش از 100 تعریف کنیم، می‌توانیم احتمال نبض بالا را با استفاده از رژیم غذایی پیش‌بینی کنیم.

این نتایج نشان می دهد که رژیم غذایی از نظر آماری معنی دار نیست (Z = -1.25، p = 0.2114).

آزمون فاکتوریل در SAS

فاکتوریل دارای دو یا چند متغیر مستقل طبقه‌بندی شده (با یا بدون برهمکنش) و یک متغیر وابسته بازه‌ای با توزیع نرمال است. به عنوان مثال، با استفاده از فایل داده hsb2، به نمرات نوشتن (نوشتن) به عنوان متغیر وابسته و جنسیت (زن) و وضعیت اجتماعی-اقتصادی (ses) به عنوان متغیرهای مستقل نگاه خواهیم کرد و تعامل زن با ses را در نظر خواهیم گرفت. توجه داشته باشید که در SAS، لازم نیست اصطلاح(های) تعامل را در مجموعه داده خود داشته باشید. در عوض، می‌توانید با قرار دادن یک ستاره بین متغیرهایی که عبارت(های) تعامل را تشکیل می‌دهند، از SAS بخواهید آن را به طور موقت ایجاد کند.

این نتایج نشان می دهد که مدل کلی از نظر آماری معنادار است (67/5 = F، 001/0 = p). متغیر زن و ses نیز از نظر آماری معنادار هستند (به ترتیب 16.59 = F، 0.0001 = p و 6.61 = F، 0.0017 = p). با این حال، این تعامل بین زن و پسر از نظر آماری معنی‌دار نیست (F = 0.13، P = 0.8753).

تست فریدمن در SAS

وقتی یک متغیر مستقل درون موضوعی با دو یا چند سطح و یک متغیر وابسته داشته باشید که بازه‌ای نیست و معمولاً توزیع شده است (اما حداقل ترتیبی) آزمون فریدمن را انجام می‌دهید. ما از این تست برای تعیین تفاوت در نمرات خواندن، نوشتن و ریاضی استفاده خواهیم کرد. فرضیه صفر در این آزمون این است که توزیع رتبه‌های هر نوع نمره (یعنی خواندن، نوشتن و ریاضی) یکسان است. برای انجام آزمون فریدمن، داده ها باید در قالب طولانی باشند. ما از proc transpose برای تغییر داده های خود از قالب گسترده ای که در حال حاضر در آن هستند به فرمت طولانی استفاده خواهیم کرد. ما یک متغیر برای کدنویسی برای نوع نمره ایجاد می کنیم که آن را rwm (برای خواندن، نوشتن، ریاضی) و col1 می نامیم که حاوی امتیاز متغیر وابسته، یعنی نمره خواندن، نوشتن یا ریاضی است. برای به دست آوردن آزمون فریدمن، باید از گزینه cmh2 در دستور جداول در proc freq استفاده کنید.

تفاوت میانگین امتیازات ردیف مانند مربع کای فریدمن است و می بینیم که با مقدار 0.6449 و p-value 0.7244 از نظر آماری معنی دار نیست. از این رو، هیچ مدرکی مبنی بر متفاوت بودن توزیع سه نوع امتیاز وجود ندارد.

رگرسیون لجستیک در SAS

رگرسیون لجستیک زمانی استفاده می شود که متغیر وابسته مرتب باشد، اما پیوسته نباشد. به عنوان مثال، با استفاده از فایل داده hsb2 یک متغیر مرتب به نام write3 ایجاد می کنیم. این متغیر دارای مقادیر 1، 2 و 3 خواهد بود که نشان دهنده نمره نوشتن کم، متوسط یا بالا است. ما معمولاً دسته بندی متغیر پیوسته را به این روش توصیه نمی کنیم. ما به سادگی در حال ایجاد یک متغیر برای استفاده برای این مثال هستیم. در این مدل از جنسیت (زن)، نمره خواندن (خواندن) و نمره مطالعات اجتماعی (socst) به عنوان متغیرهای پیش بینی کننده استفاده خواهیم کرد. از گزینه desc در عبارت proc logistic استفاده می شود تا SAS شانس قرار گرفتن در دسته پایین تر را مدل کند.

جدول Profile Response در خروجی مقداری را که SAS هنگام انجام تجزیه و تحلیل (در ستون Ordered Value داده شده) استفاده کرده است، مقدار متغیر اصلی و تعداد موارد در هر سطح از متغیر نتیجه را نشان می دهد. (اگر می خواهید SAS از مقادیری استفاده کند که متغیر نتیجه را به آن اختصاص داده اید، می خواهید از گزینه order = data در عبارت proc logistic استفاده کنید.) یادداشت زیر این جدول به ما یادآوری می کند که «احتمالات مدل شده روی انباشته می شوند. ارزش های مرتب پایین تر.» یادآوری این نکته هنگام تفسیر خروجی مفید است. گزینه expb در دستور مدل به SAS می‌گوید ضرایب توان‌یافته (یعنی نسبت‌های شانس متناسب) را نشان دهد.

نتایج نشان می‌دهد که مدل کلی از نظر آماری معنی‌دار است (0001/0p<)، و همچنین هر یک از متغیرهای پیش‌بینی‌کننده (0001/0p<). دو رهگیری برای این مدل وجود دارد زیرا سه سطح از متغیر نتیجه وجود دارد. همچنین می بینیم که آزمون فرض شانس متناسب غیرمعنادار است (5477/0 = p). یکی از مفروضات زیربنایی رگرسیون لجستیک ترتیبی (و پروبیت ترتیبی) این است که رابطه بین هر جفت گروه نتیجه یکسان است.

به عبارت دیگر، رگرسیون لجستیک ترتیبی فرض می‌کند که ضرایبی که رابطه بین، مثلاً، کمترین در مقابل همه دسته‌های بالاتر متغیر پاسخ را توصیف می‌کنند، همان ضرایبی هستند که رابطه بین پایین‌ترین دسته بعدی و همه دسته‌های بالاتر و غیره را توصیف می‌کنند. این فرض شانس متناسب یا فرض رگرسیون موازی نامیده می شود. از آنجایی که رابطه بین همه جفت گروه ها یکسان است، تنها یک مجموعه ضرایب (فقط یک مدل) وجود دارد. اگر اینطور نبود، ما به مدل‌های مختلفی (مانند مدل لاجیت مرتب شده تعمیم‌یافته) برای توصیف رابطه بین هر جفت از گروه‌های نتیجه نیاز داشتیم.

رگرسیون لجستیک فاکتوریل در SAS

رگرسیون لجستیک فاکتوریل زمانی استفاده می شود که شما دو یا چند متغیر مستقل طبقه بندی و یک متغیر وابسته دوگانه داشته باشید. به عنوان مثال، با استفاده از فایل داده hsb2، ما از زن به عنوان متغیر وابسته خود استفاده می کنیم، زیرا این تنها متغیر دوگانه در مجموعه داده ما است. مطمئناً نه به این دلیل که استفاده از جنسیت به عنوان یک متغیر نتیجه رایج است. ما از نوع برنامه (prog) و نوع مدرسه (schtyp) به عنوان متغیرهای پیش بینی خود استفاده خواهیم کرد. از آن جا که نه prog و نه schtyp متغیرهای پیوسته نیستند، باید آن ها را در دستور کلاس قرار دهیم. گزینه desc در عبارت proc logistic ضروری است تا SAS شانس زن بودن را مدل کند (یعنی زن = 1). گزینه expb در دستور مدل به SAS می‌گوید ضرایب توان‌یافته (یعنی نسبت‌های شانس) را نشان دهد.

نتایج نشان می دهد که مدل کلی از نظر آماری معنی دار نیست (LR chi2 = 3.1467، p = 0.6774). علاوه بر این، هیچ یک از ضرایب نیز از نظر آماری معنی دار نیستند. علاوه بر این، هیچ اثر آماری معنی داری از برنامه (0.5703 = p)، نوع مدرسه (0.5203 = p) یا تعامل (p = 0.2903) وجود ندارد.

همبستگی در SAS

همبستگی زمانی مفید است که می‌خواهید رابطه خطی بین دو (یا چند) متغیر بازه‌ای معمولی توزیع شده را ببینید. به عنوان مثال، با استفاده از فایل داده hsb2 می توانیم یک همبستگی بین دو متغیر پیوسته، خواندن و نوشتن، اجرا کنیم.

در مثال دوم زیر، یک همبستگی بین یک متغیر دوگانه، زن، و یک متغیر پیوسته، نوشتن، اجرا خواهیم کرد. اگرچه فرض بر این است که متغیرها فاصله ای هستند و به طور معمول توزیع می شوند، ما می توانیم متغیرهای ساختگی را در هنگام انجام همبستگی در نظر بگیریم.

در مثال اول بالا، می بینیم که همبستگی بین خواندن و نوشتن 0.59678 است. با مجذور کردن همبستگی و سپس ضرب در 100، می توانید تعیین کنید که چند درصد از تنوع به اشتراک گذاشته شده است. بیایید 0.59678 را گرد کنیم تا 0.6 شود، که وقتی مجذور آن 0.36 می شود، ضرب در 100 می شود 36%. از این رو سهام حدود 36 درصد از تنوع آن را با نوشتن بخوانید. در خروجی مثال دوم، همبستگی بین نوشتن و زن 0.25649 است. مربع کردن این عدد 0.0657871201 را به دست می دهد، به این معنی که ماده تقریباً 6.5٪ از تنوع آن را با نوشتن به اشتراک می گذارد.

رگرسیون خطی ساده در SAS

رگرسیون خطی ساده به ما این امکان را می دهد که به رابطه خطی بین یک پیش بینی کننده بازه با توزیع نرمال و یک متغیر پیامد فاصله با توزیع نرمال نگاه کنیم. به عنوان مثال، با استفاده از فایل داده hsb2، فرض کنید که می خواهیم به رابطه بین نمرات نوشتن (نوشتن) و نمرات خواندن (خواندن) نگاه کنیم. به عبارت دیگر، پیش‌بینی نوشتن از روی خواندن.

می بینیم که رابطه بین نوشتن و خواندن مثبت است (.55171.) و بر اساس t-value (10.47) و p-value (0.000) نتیجه می گیریم که این رابطه از نظر آماری معنی دار است. از این رو بین خواندن و نوشتن رابطه خطی مثبت و معنادار آماری وجود دارد.

همبستگی ناپارامتریک در SAS

از همبستگی اسپیرمن زمانی استفاده می‌شود که یک یا هر دو متغیر به طور معمول توزیع نشده باشند و بازه‌ای (اما ترتیبی فرض شوند). مقادیر متغیرها به رتبه تبدیل می شوند و سپس همبسته می شوند. در مثال خود ما به دنبال رابطه بین خواندن و نوشتن خواهیم بود. ما فرض نمی کنیم که هر دوی این متغیرها عادی و با فاصله هستند. گزینه spearman در دستور proc corr برای اینکه به SAS بگوید به جای همبستگی پیرسون یک همبستگی رتبه اسپیرمن را انجام دهد استفاده می شود.

نتایج نشان می دهد که رابطه بین خواندن و نوشتن (rho = 0.61675، p = 0.000) از نظر آماری معنی دار است.

رگرسیون لجستیک ساده در SAS

رگرسیون لجستیک فرض می کند که متغیر نتیجه باینری است (یعنی کدگذاری شده به صورت 0 و 1). ما در فایل دیتای hsb2 فقط یک متغیر داریم که کد 0 و 1 دارد و آن زن است. ما می دانیم که زن یک متغیر نتیجه احمقانه است (استفاده از آن به عنوان یک متغیر پیش بینی کننده منطقی تر است)، اما می توانیم از زن به عنوان متغیر نتیجه استفاده کنیم تا نحوه ساختار کد این دستور و نحوه تفسیر خروجی را نشان دهیم. اولین متغیر فهرست شده در بیانیه مدل، متغیر نتیجه (یا وابسته) است و بقیه متغیرها بعد از علامت تساوی فهرست شده اند و متغیرهای پیش بینی کننده (یا مستقل) هستند. اگر می‌خواهید نسبت‌های شانس را ببینید، می‌توانید از گزینه expb در دستور مدل استفاده کنید. در مثال ما زن متغیر نتیجه و read متغیر پیش‌بینی‌کننده خواهد بود. مانند رگرسیون OLS، متغیرهای پیش بینی باید دوگانه یا پیوسته باشند. آنها نمی توانند دسته بندی شوند.

نتایج نشان می‌دهد که نمره خواندن (خواندن) پیش‌بینی‌کننده آماری معنی‌داری برای جنسیت (یعنی زن بودن) نیست، والد کای اسکوئر = 0.5623، p = 0.4533.

رگرسیون چندگانه در SAS

رگرسیون چندگانه بسیار شبیه به رگرسیون ساده است، با این تفاوت که در رگرسیون چندگانه شما بیش از یک متغیر پیش بینی در معادله دارید. به عنوان مثال، با استفاده از فایل داده hsb2 نمره نوشتن را از نمرات جنسیت (مونث)، خواندن، ریاضی، علوم و مطالعات اجتماعی (socst) پیش‌بینی می‌کنیم. گزینه stb در دستور مدل به SAS می‌گوید ضرایب رگرسیون استاندارد شده را نمایش دهد (در سمت راست خروجی مشاهده می‌شود).

نتایج نشان می‌دهد که مدل کلی از نظر آماری معنی‌دار است (60/58=F، 0001/0=p). علاوه بر این، همه متغیرهای پیش‌بینی‌کننده به جز خواندن، از نظر آماری معنادار هستند.

تحلیل کوواریانس در SAS

تجزیه و تحلیل کوواریانس مانند ANOVA است، با این تفاوت که علاوه بر پیش‌بینی‌کننده‌های طبقه‌بندی، پیش‌بینی‌کننده‌های پیوسته نیز دارید. به عنوان مثال، مثال ANOVA یک طرفه از نوشتن به عنوان متغیر وابسته و prog به عنوان متغیر مستقل استفاده می کند. اجازه دهید read را به عنوان یک متغیر پیوسته به این مدل اضافه کنیم.

نتایج نشان می‌دهد که حتی پس از تنظیم برای نمره خواندن (خواندن)، نمرات نوشتن هنوز به طور قابل توجهی بر اساس نوع برنامه (prog) F = 5.87، p = 0.0034 متفاوت است.

رگرسیون لجستیک چندگانه در SAS

رگرسیون لجستیک چندگانه مانند رگرسیون لجستیک ساده است، با این تفاوت که دو یا چند پیش بینی کننده وجود دارد. پیش بینی کننده ها می توانند متغیرهای بازه ای یا متغیرهای ساختگی باشند، اما نمی توانند متغیرهای طبقه ای باشند. اگر پیش‌بینی‌کننده‌های طبقه‌بندی دارید، باید آنها را در یک یا چند متغیر ساختگی کدگذاری کنید.

ما فقط یک متغیر در مجموعه داده خود داریم که کد 0 و 1 دارد و آن زن است. ما می دانیم که زن یک متغیر نتیجه احمقانه است (استفاده از آن به عنوان یک متغیر پیش بینی کننده منطقی تر است)، اما می توانیم از زن به عنوان متغیر نتیجه استفاده کنیم تا نحوه ساختار کد این دستور و نحوه تفسیر خروجی را نشان دهیم. در مثال ما، زن متغیر نتیجه خواهد بود، و خواندن و نوشتن متغیرهای پیش بینی کننده خواهند بود. گزینه desc در عبارت proc logistic ضروری است تا SAS احتمال زن بودن را مدل کند (یعنی زن = 1). گزینه expb در دستور مدل به SAS می‌گوید ضرایب توان (یعنی نسبت‌های شانس) را نمایش دهد.

این نتایج نشان می دهد که هم خواندن (Wald chi-square = 13.1251، p = 0.0003) و هم نوشتن (Wald chi-square = 23.0748، p = 0.0001) پیش بینی کننده قابل توجهی برای زنان هستند.

تحلیل تشخیصی در SAS

تجزیه و تحلیل تفکیک زمانی استفاده می شود که شما یک یا چند متغیر مستقل با فاصله معمولی توزیع شده و یک متغیر وابسته طبقه بندی داشته باشید. این یک تکنیک چند متغیره است که ابعاد پنهان در متغیرهای مستقل را برای پیش‌بینی عضویت گروه در متغیر وابسته طبقه‌ای در نظر می‌گیرد. به عنوان مثال، با استفاده از فایل داده hsb2، فرض کنید که می خواهیم از نمرات خواندن، نوشتن و ریاضی برای پیش بینی نوع برنامه (prog) که دانش آموز به آن تعلق دارد استفاده کنیم.

واضح است که خروجی SAS برای این رویه بسیار طولانی است و توضیح همه آن از حوصله این صفحه خارج است. با این حال، نکته اصلی این است که دو متغیر متعارف توسط تجزیه و تحلیل شناسایی می شوند که به نظر می رسد اولی بیشتر به نوع برنامه مرتبط باشد تا دومی.

واریانس چند متغیره یک طرفه در SAS

MANOVA (تحلیل واریانس چند متغیره) مانند ANOVA است، با این تفاوت که دو یا چند متغیر وابسته وجود دارد. در یک MANOVA یک طرفه، یک متغیر مستقل طبقه بندی و دو یا چند متغیر وابسته وجود دارد. به عنوان مثال، با استفاده از فایل داده hsb2، فرض کنید که می خواهیم تفاوت های خواندن، نوشتن و ریاضی را بر اساس نوع برنامه (prog) بررسی کنیم. عبارت manova در پروسه glm ضروری است تا به SAS بگوید که یک MANOVA را انجام دهد. h= در عبارت manova برای تعیین اثر فرضی استفاده می شود.

این دستور چهار آمار، آزمون مختلف را تولید می کند که برای ارزیابی اهمیت آماری رابطه بین متغیر مستقل و متغیرهای نتیجه استفاده می شود. بر اساس هر چهار معیار، دانش آموزان در برنامه های مختلف در توزیع مشترک خواندن، نوشتن و ریاضی متفاوت هستند.

رگرسیون چند متغیره در SAS

رگرسیون چند متغیره زمانی استفاده می شود که دو یا چند متغیر وابسته دارید که باید از دو یا چند متغیر پیش بینی پیش بینی شوند. در مثال ما نوشتن و خواندن را از نمرات زنان، ریاضی، علوم و مطالعات اجتماعی (socst) پیش‌بینی می‌کنیم. دستور mtest در proc reg برای آزمایش فرضیه‌ها در مدل‌های رگرسیون چند متغیره استفاده می‌شود که در آن چندین متغیر مستقل متناسب با متغیرهای وابسته یکسان وجود دارد. اگر هیچ معادله یا گزینه ای مشخص نشده باشد، دستور mtest این فرضیه را آزمایش می کند که تمام پارامترهای تخمین زده شده به جز وقفه صفر هستند.

به عبارت دیگر، آزمون‌های چند متغیره آزمایش می‌کنند که آیا متغیر مستقل مشخص‌شده متغیرهای وابسته را با هم پیش‌بینی می‌کند و همه متغیرهای مستقل دیگر را ثابت نگه می‌دارد. برای کمک به تفسیر خروجی، می‌توانید در جلوی دستور mtest یک برچسب قرار دهید (این کار مخصوصاً زمانی مفید است که چندین دستور mtest دارید).

با توجه به آزمون‌های تک متغیره، هر یک از متغیرهای مستقل پیش‌بینی‌کننده آماری معنی‌داری برای نوشتن هستند. همه متغیرهای مستقل نیز از نظر آماری پیش‌بینی‌کننده‌های معنی‌داری برای خواندن هستند به جز زن (t = -0.53، p = 0.5956). تمامی آزمون های چند متغیره نیز از نظر آماری معنادار هستند.

همبستگی کانونی در SAS

همبستگی کانونی یک تکنیک چند متغیره است که برای بررسی رابطه بین دو گروه از متغیرها استفاده می شود. برای هر مجموعه ای از متغیرها، متغیرهای پنهان ایجاد می کند و به روابط بین متغیرهای پنهان نگاه می کند. فرض می کند که همه متغیرهای مدل به صورت بازه ای و به طور معمول توزیع شده اند. در SAS، یک گروه از متغیرها روی دستور var و گروه دیگر روی دستور with قرار می‌گیرند. لازم نیست تعداد متغیرهای مساوی در دو گروه وجود داشته باشد. گزینه all در دستور proc cancorr خروجی بیشتری ارائه می دهد که ممکن است برای بسیاری از محققان مفید باشد.

خروجی بالا ترکیبات خطی مربوط به اولین همبستگی متعارف را نشان می دهد. در پایین خروجی دو همبستگی متعارف وجود دارد. این نتایج نشان می دهد که اولین همبستگی متعارف 0.772841 است. آزمون F در این خروجی این فرضیه را آزمایش می کند که اولین همبستگی متعارف برابر با صفر است. واضح است که F = 56.47 از نظر آماری معنی دار است. با این حال، دومین همبستگی کانونی 0.0235 از نظر آماری تفاوت معنی داری با صفر ندارد (F = 0.11، p = 0.7420).

تحلیل عاملی در SAS

تحلیل عاملی شکلی از تجزیه و تحلیل چند متغیره اکتشافی است که برای کاهش تعداد متغیرها در یک مدل یا تشخیص روابط بین متغیرها استفاده می شود. همه متغیرهای دخیل در تحلیل عاملی باید پیوسته باشند و به طور نرمال توزیع شده باشند. هدف تحلیل تلاش برای شناسایی عواملی است که زیربنای متغیرها هستند. ممکن است عوامل کمتر از متغیرها باشد، اما ممکن است عوامل بیشتر از متغیرها نباشد.

برای مثال، فرض کنید که فکر می‌کنیم عوامل مشترکی در نمرات مختلف آزمون وجود دارد. ما از روش مولفه های اصلی استخراج استفاده می کنیم، از چرخش واریماکس استفاده می کنیم، دو عامل را استخراج می کنیم و یک نمودار اسکری از مقادیر ویژه به دست می آوریم. همه این گزینه ها در دستور proc factor فهرست شده اند.

اشتراک (که مخالف یکتا بودن است) نسبت واریانس متغیر (یعنی خوانده شده) است که با مجموع همه عوامل به حساب می آید، و یک اشتراک بسیار کم می تواند نشان دهد که یک متغیر ممکن است به هیچ یک از آنها تعلق نداشته باشد. عوامل از جدول الگوی عاملی، می‌توانیم ببینیم که هر پنج نمره آزمون بر روی عامل اول بارگذاری می‌شوند، در حالی که هر پنج امتیاز روی عامل دوم چندان سنگین نیستند. هدف از چرخش فاکتورها این است که متغیرها بر روی هر عامل بارگذاری بسیار زیاد یا بسیار کم داشته باشند. در این مثال، به دلیل اینکه همه متغیرها بر روی عامل 1 بارگذاری شده اند و نه روی عامل 2، چرخش به تفسیر کمکی نمی کند. در عوض، تفسیر نتایج را حتی دشوارتر کرد.

دوره آموزش SAS