آموزش روش های شناسایی و حذف داده های پرت

زمانی که شما پرسشنامه هایی را در اختیار کیس های تحقیق می گذارید، همیشه ممکن است پاسخ های بسیار متفاوتی را هم دریافت کنید. جواب هایی که با دیگر پاسخ های پاسخگویان، بسیار بسیار متفاوت است. به این داده ها، داده های پرت یا دور افتاده گفته می شود، که ممکن است نتایج آزمون شما را به کلی تغییر دهد. از طرفی یکی از مهم ترین مفروضه های اجرای بسیاری از آزمون های پارامتریک، نداشتن داده های پرت است. برای همین شناسایی و تصمیم گیری در مورد این داده ها بسیار اهمیت دارد.

در این مقاله به آموزش روش های شناسایی و حذف داده های پرت خواهیم پرداخت.پس تا انتهای این آموزش همراه کیارا آکادمی باشید.

داده های پرت چیست ؟

فرض کنید شما یک پژوهشگر هستید، که قصد دارید در یک نمونه 100 نفری در یک شهرک، پرسشنامه ای را توزیع کنید. اکثر افرادی که به پرسشنامه شما پاسخ می دهند، در بازه سنی 20 الی 30 سال هستند ، ولی 6 نفر از پاسخگویان با سن 90 سال وارد پژوهش شما شده اند. اگر بعد از جمع آوری داده ها میانگین سنی را بگیرید، با وجود آن 6 نفر، میانگین بسیار متفاوتی را خواهید داشت. در اصل این 6 نفر به کلی آماره های شما را تغییر می دهند. به این 6 کیس و میزان سن آن ها داده پرت گفته می شود. داده پرت یا داده دورافتاده (Outlier) به آن دسته از داده ها گفته می‌شود، که فاصله زیادی با دیگر داده‌های تحقیق داشته‌باشد، در اصل Outlier مقادیری است که نسبت به میانگین کل داده ها فاصله زیادی دارد.

علل ایجاد داده های پرت چیست؟

اشتباه در طراحی مقیاس اندازه گیری (خطای اندازه گیری یا خطای ابزار)
اشتباه در وارد کردن داده ها به نرم افزار (خطای پژوهشگر: مثلا پاسخ آزمون شونده به سوال سن عدد 30 بوده است، ولی خود محقق به اشتباه عدد 90 را تایپ کرده است )
اشتباه خود پاسخ دهنده به سوالات (آزمون شونده نمی خواسته به سوال پاسخ درست دهد، چرا که سوال حساس بر انگیز بوده یا این که اصلا سوال را نخوانده است و فقط جواب داده و رفته سوال بعدی یا این که سوال را اشتباه مطالعه کرده است)

اهمیت شناسایی داده های پرت (Outlier)

وجود Outlier در تحلیل می تواند مشکلات بسیار جدی را برای تحلیل ایجاد کند. در ادامه به مشکلات ایجاد شده در تحلیل خواهیم پرداخت:

حساس بودن روش های پارامتریک به داده های پرت: عدم وجود داده های دور افتاده برای بسیاری از آزمون های آماری پارامتریک یک پیش فرض مهم است. شما برای اجرای این دسته از آزمون ها باید داده های پرت خود را حذف یا اصلاح نمایید، چرا که این داده ها می تواند روش اجرای شما را زیر سوال ببرد.
ایجاد خطا در نتایج : داده های دور افتاده می تواند نتایج بدست آمده را به کلی دچار اشکال کند. به این مثال توجه کنید : شما می خواهید میانگین درآمدی کارکنان یک شرکت را بررسی نمایید. از 50 نفر از این کارکنان درآمدشان را می پرسید. اکثر کارکنان با درآمد 5 الی 6 میلیون در ماه هستند، ولی 4 نفر از آنان با درآمد ماهانه 40 میلیون کار می کنند. آنان مربوط به سطوح بالای سازمان هستند. حال اگر بخواهید میانگین درآمدی را بگیرید و بگویید به طور میانگین درآمد افراد چقدر است، باید بدانید که اضافه کردن آن 4 نفر به تحلیل، به شما میانگین اشتباه و غیر واقع بینانه ای را می دهد. پس راهکار این است که این 4 نفر را از تحلیل کنار بگذارید و یا مثلا برای بخش مدیریت تحلیل ها و بررسی های جداگانه ای را ارایه دهید.
تغییر شکل توزیع متغیرها: داده های دور افتاده می تواند شکل توزیع نرمال را تغییر دهد. نرمال بودن توزیع یکی از پیش فرض های بسیاری از تحلیل های آماری است و داده های پرت می تواند این توزیع را به هم بریزد .

روش های تشخیص داده های پرت (Outlier)

برای شناسایی داده های پرت (Outlier Data) می‌توان از دو دسته روش استفاده کرد، یکی از روش ها ترسیم نمودارهای آماری است و روش دیگر استفاده از برخی از آزمون ها و تفسیر آماره ها است. در این بخش به آموزش کامل این روش ها خواهیم پرداخت:

شناسایی داده های پرت با نمودار جعبه ای

ترسیم نمودار جعبه ای می تواند به ما کمک نماید که بفهمیم، آیا ما داده های پرت داریم یا خیر؟ و این داده های پرت مربوط به کدام یک از کیس های تحقیق است؟ برای ترسیم این نمودار می توان از چندین روش استفاده نمود :

روش اول: روی بخش Graphs بروید و سپس گزینه Chart Builder را بزنید.

سپس در بخشی که باز می شود، باید از قسمت Gallery گزینه Boxplot را که مربوط به ترسیم نمودار جعبه ای است را بکشید و به سمت قسمت بالا رها نمایید یا این که دو بار روی آن کلیک نمایید، تا شکل نمودار به کارد وسط انتقال یابد. سپس متغیرهای خود را که می خواهید نمودار جعبه ای را برای آن ترسیم نمایید وارد تحلیل کنید.

روش دوم: از دستور Legacy Dialogs استفاده کنید و از بین گزینه های موجود در این بخش برای ترسیم نمودار (Chart) گزینه Boxplot را انتخاب کنید.

سپس متغیرها را وارد تحلیل کنید و روی OK کلیک کنید:

تفسیر خروجی های نمودار جعبه ای

همان طور که از تصویر مشخص است، داده هایی که از توزیع ما بسیار پرت هستند را در قالب یک سری شکل دایره ای در نمودار نشان می دهد. بالای هر کدام از این دایره ها عدد کیس مورد نظر را نیز نوشته است. شما می توانید به کیس های مشخص شده در نمودار مراجعه کنید و ببینید چرا جواب های آن ها پرت است؟ آزمون دهنده اشتباه کرده یا آزمون گیرنده؟

شناسایی داده های پرت با نمودار میله ای

از طرفی می توانید برای تکمیل کار خود نمودار میله ای را نیز ترسیم نمایید، که به راحتی به شما نشان می‎دهد که آیا داده های پرت دارید یا خیر؟

شناسایی داده های پرت با نمودار Q-Q

روش دیگر شناسایی داده های پرت، استفاده از نمودار چندک چندک است، که به ما نشان می دهد آیا متغیر ما دارای داده های دور افتاده است یا خیر؟ برای ترسیم این نمودار باید، ابتدا از منوی Analyze به بخش Descriptive statistics بروید و گزینه Q-Q Plot را بزنید. در گام بعدی باید متغیر مد نظر را باید وارد کادر روبه رو کنید و در نهایت گزینه 0k را بزنید تا خروجی ها ارایه شود .

خروجی Q-Q Plot

می توان نقاطی که از خط فاصله زیادی دارد را بررسی کرده و شناسایی کنید:

آموزش ترسیم نمودار P-P Plot و Q-Q plot

شناسایی داده های پرت با نمره استاندارد (Z)

ابتدا باید بدانید که نمره استاندارد چیست؟ اگر شما بخواهید نمرات گروه ها را با هم مقایسه کنید، باید باید آن ها را به نمره استاندارد تبدیل کنید. چرا که هر کدام از این توزیع ها می تواند میانگین متفاوتی داشته باشد. برای این کار و محاسبه نمره استاندارد (یا نمره Z)، باید مقادیر را از میانگین گروه کم کنیم و بر انحراف معیار تقسیم کنیم .

محاسبه آزمون z در spss

نمرات استاندارد می تواند مشخص کند، که کدام کیس های ما داده دور افتاده دارد. برای اجرای این روش در نرم افزار spss می‎توان از دو مسیر پیش رفت :

روش اول محاسبه نمره استاندارد: باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده، گزینه Linear را انتخاب کنید.

بعد از آن که متغیرهای تحقیق را وارد تحلیل کردید، باید بر روی قسمت save بزنید .

در قسمت save، تیک گزینه standardized را فعال نمایید. سپس Continue را بزنید. در آخرین گام روی OK کلیک کنید.

روش دوم محاسبه نمره استاندارد : باید در بخش Analyze در منو Descritive Statistics گزینه Descritives را بزنید. سپس باید گزینه ی Save standardized values as variables را فعال کنید و در پایان بر روی Ok کلیک کنید.

پس از اجرای آزمون استاندارد، نمرات استاندارد تمامی کیس های تحقیق در یک ستون محاسبه می شود. اگر مواردی در ستون باقی مانده استاندارد، بالای 3 یا زیر 3- باشد، باید آن ها را حذف کرد، چون موارد دور افتاده حساب می شوند.

شناسایی داده های پرت با فاصله ماهالانوبیس

روش دیگری که می توان با آن داده های پرت را در توزیع مشخص نمود، استفاده از فاصله ماهالانوبیس است. این روش بیشتر بر روش رگرسیون استفاده می شود. نحوه محاسبه فاصله ماهالانوبیس در SPSS بدین شکل است که، ابتدا باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده گزینه Linear را انتخاب کنید.

در گام بعدی متغیر وابسته و متغیرهای پیش بین را وارد تحلیل کنید. سپس وارد بخش Save شوید و تیک Mahalanobis را انتخاب کنید. در پایان گزینه ok را بزنید تا خروجی ها برای شما نمایش داده شود.

در خروجی های نرم افزار باید فاصله ماهالانوبیس را پیدا کنید. از ماکسیموم این فاصله می توانید مقدار بحرانی آن را مشخص نمایید.

بعد از دیدن مقدار ماکسیموم باید به جدول زیر مراجعه نمایید. بر اساس تعداد متغیرهای پیش بین تحلیل، مشخص شده که مقدار بحرانی ماهالانوبیس چند است. اگر عدد ماکسیموم خروجی، بزرگ تر از مقدار بحرانی بود، یعنی این که ما مقادیر پرت مشکل ساز داریم.

در گام نهایی شما باید به داده های اصلی مراجعه نمایید. نرم افزار برای شما ستون جدیدی را تحت عنوان MAH ایجاد کرده است. این مقادیر را از بزرگ به کوچک مرتب کنید و کیس هایی که مقدار ماهالانوبیس آن ها بالا تر از مقدار بحرانی بوده را از تحلیل خود حذف نمایید.

آموزش رگرسیون خطی ساده در نرم افزار SPSS

ترسیم نمودار Scatterplot برای شناسایی داده های پرت

روش دیگر این است که یک نمودار پراکندگی برای دو متغیر تحلیل ترسیم کنید. نکته ای که در مورد این نمودار باید رعایت شود این است که، دو متغیر تحلیل باید با مقیاس (Measure) فاصله ای (Scale) سنجیده شده باشد. وجود نقطه پراکنده در نمودار، نشان دهنده داده های پرت است. پیشنهاد می کنم برای حرفه ای شدن در تحلیل های آماری از دوره spss کیارا آکادمی دیدن کنید. برای استفاده از دوره جامع spss می توانید از لینک زیر استفاده کنید:

برای ترسیم می توانید از قسمت Graph‌ گزینه Chart Builder را انتخاب کنید. سپس دکمه OK را بزنید. از قسمت Gallery گزینه Scatter/Dot را به کادر وسط بکشید و سپس متغیرهای تحلیل را در محور های X و Y وارد کنید.

روش برخورد با داده های پرت

به طور کلی بعد از آن که داده های خود را جمع آوری کردید، باید از روش هایی برای شناسایی داده های پرت استفاده کنید. بعد از این مرحله وارد تصمیم گیری در مورد داده های پرت می شوید. دو راهکار اصلی برای برخورد با داده های پرت وجود دارد:

روش اصلاح داده های پرت

در صورتی که امکان اصلاح داده ها وجود داشته باشد، می توان از این روش استفاده نمود. شما باید بررسی کنید، چرا داده پرت ایجاد شده است؟ ممکن است در اثر اشتباه تایپی خود شما باشد. برای بررسی این موضوع کافی است از روش زیر عمل نمایید :

شما باید در ابتدا در بخش Analyze در منو Descritive Statistics گزینه Frequencies را بزنید. سپس متغیر مورد نظر را وارد تحلیل نمایید. سپس گزینه Stattistics را بزنید. min و max را انتخاب کنید و در پایان OK را بزنید.

در خروجی های نرم افزار می توانید مقدار ماکسیموم و مینیموم را مشاهده کنید. مثلا در نظر بگیرید که در وارد کردن داده ها ممکن است، خطا از جانب شما باشد. به راحتی می توانید بر اساس جدول خروجی ببنید که کدام یک از کیس ها مقادیر پرت دارند. سپس به پرسشنامه مراجعه نمایید و اگر اشکالی در وارد کردن داده ها موجود بود می توانید به راحتی اصلاح نمایید.

روش دیگری هم برای بررسی داده های دور افتاده وجود دارد و آن این است که، در قسمت Frequencies می‎ توانید تیک Skewness را نیز بزنید تا چولگی را در جدول به شما نشان بدهد. مقدار آن مشخص کننده وجود داده های دور افتاده است.

شاخص های برازش مدل معادلات ساختاری

روش حذف داده های پرت

ممکن است داده های پرت شما در مرحله قبلی قابل اصلاح نباشد. مثلا به کلی، خود آزمون شوندگان به اشتباه پاسخ داده اند. در چنین حالتی باید این داده ها را در صورتی که تعداد آن ها زیاد باشد، از تحلیل حذف کرد. در این بخش، روش حذف کیس هایی که در آن داده پرت موجود است را آموزش خواهید دید:

آزمون داده های پرت

برای این آزمون باید به بخش Analyze بروید. در گام بعدی وارد بخش Descriptive Statistics شوید و گزینه Explore را انتخاب کنید.

بعد از وارد کردن داده های تحلیل باید در قسمت Statistics گزینه Outilers را فعال نمایید. سپس ok را بزنید.

در خروجی های نرم افزار می توانید لیستی از داده های دور افتاده تحلیل را به همراه شماره کیس آن مشاهده نمایید. این لیست شما را برای حذف این مقادیر از تحلیل کمک می کند.

خلاصه روش های یافتن دیتا پرت

نقاط پرت، نقاط داده ای هستند که با سایر نقاط داده فاصله دارند. به عبارت دیگر، آنها مقادیر غیرعادی در یک مجموعه داده هستند. نقاط پرت برای بسیاری از تحلیل‌های آماری مشکل‌ساز هستند، زیرا می‌توانند باعث شوند که آزمایش‌ها یافته‌های مهم را از دست بدهند یا نتایج واقعی را تحریف کنند.یافتن نقاط پرت به دانش موضوعی و درک فرآیند جمع آوری داده ها بستگی دارد. در حالی که هیچ تعریف ریاضی محکمی وجود ندارد، دستورالعمل ها و آزمون های آماری وجود دارد که می توانید برای یافتن نامزدهای پرت از آن ها استفاده کنید.

نقاط پرت مقادیری هستند که به طور قابل توجهی با سایر نقاط داده متفاوت هستند و می توانند در روش های آماری مشکل ایجاد کنند. برخی از روش ها:

صفحه داده خود را برای یافتن موارد پرت مرتب کنید. مرتب سازی دیتا یک راه ساده اما موثر برای برجسته کردن مقادیر غیرمعمول است. به سادگی برگه داده خود را برای هر متغیر مرتب کنید و سپس به دنبال مقادیر غیرمعمول بالا یا پایین باشید. نمودار سازی داده های خود برای شناسایی موارد پرت: نمودارهای جعبه ای، هیستوگرام ها و نمودارهای پراکنده می توانند نقاط پرت را برجسته کنند. باکس‌پلات‌ها ستاره‌ها یا سایر نمادها را روی نمودار نشان می‌دهند تا به صراحت نشان دهند که چه زمانی مجموعه داده‌ها حاوی مقادیر پرت هستند. نمودار جعبه زیر مجموعه داده نمونه ما را نشان می دهد. واضح است که مقدار پرت کاملاً متفاوت از مقدار داده معمولی است. هیستوگرام ها نیز بر وجود نقاط پرت تاکید می کنند.

محمد صادق کیانی

روانشناس سازمانی و تحلیلگر آماری

تحلیل کوواریانس با نرم افزار JASP

تحلیل واریانس با نرم افزار JASP

آزمون همبستگی در JASP

بررسی پایایی در پایان نامه با نرم افزار JASP

آزمون های ناپارامتریک در JASP

10 پاسخ

نگار گفت:

مارس 20, 2023 در 4:52 ب.ظ

آزمون z در spss کاربردهای دیگه ای هم داره؟؟؟

پاسخ
1. محمد صادق کیانی گفت:
  
  می 8, 2023 در 5:36 ق.ظ
  
  ببین در کل آزمون z یک آزمون آماری برای تعیین این که آیا میانگین دو جامعه زمانی که واریانس‌ها مشخص است و حجم نمونه بزرگ است یا خیر متفاوت است یا خیر؟
  آزمون z یک آزمون فرضیه است که در آن آماره z از توزیع نرمال پیروی می کند.
  آمار z یا z-score عددی است که نتیجه آزمون z را نشان می دهد.
  آزمون‌های Z ارتباط نزدیکی با آزمون‌های t دارند، اما آزمون‌های t زمانی بهتر انجام می‌شوند که آزمایش حجم نمونه کوچکی داشته باشد.
  
  حالا بیا لطفا این مقاله را بخون تا کامل یاد بگیری:
  https://kiaraacademy.com/z-test-in-r/
  
  پاسخ
میر جانی گفت:

مارس 20, 2023 در 4:53 ب.ظ

آقا عالی بود . من مونده بودم داده های پرت را چیکارش کنم

پاسخ
1. محمد صادق کیانی گفت:
  
  می 8, 2023 در 5:35 ق.ظ
  
  خوشحالم کردید . این آموزش هم ممکن است به کار شما بیاید:
  آموزش تشخیص داده پرت با استفاده از آزمون Grubbs در R
  https://kiaraacademy.com/grubbs-test-in-r/
  
  پاسخ
صداقت گفت:

مارس 20, 2023 در 4:53 ب.ظ

نمودارهای جعبه ای، هیستوگرام ها و نمودارهای پراکندگی کدومشون بهتره برای دیتا پرت؟؟؟

پاسخ
1. محمد صادق کیانی گفت:
  
  می 8, 2023 در 5:33 ق.ظ
  
  سلام. پراکندگی و جعبه ای بیشتر متداول است
  
  پاسخ
زمانی گفت:

مارس 20, 2023 در 4:54 ب.ظ

بسیار بسیار عالی

پاسخ
1. محمد صادق کیانی گفت:
  
  می 8, 2023 در 5:34 ق.ظ
  
  ممنونم
  
  پاسخ
محمدرضا گفت:

جولای 24, 2023 در 2:17 ب.ظ

بسیار عالی لذت بردیم

پاسخ
1. محمد صادق کیانی گفت:
  
  جولای 25, 2023 در 10:43 ق.ظ
  
  مرسی دوست عزیز
  
  پاسخ