آموزش روش های شناسایی و حذف داده های پرت

آموزش روش های شناسایی و حذف داده های پرت
فهرست مطالب

زمانی که شما پرسشنامه هایی را در اختیار کیس های تحقیق می گذارید، همیشه ممکن است پاسخ های بسیار متفاوتی را هم دریافت کنید. جواب هایی که با دیگر پاسخ های پاسخگویان، بسیار بسیار متفاوت است. به این داده ها، داده های پرت یا دور افتاده گفته می شود، که ممکن است نتایج آزمون شما را به کلی تغییر دهد. از طرفی یکی از مهم ترین مفروضه های اجرای بسیاری از آزمون های پارامتریک، نداشتن داده های پرت است. برای همین شناسایی و تصمیم گیری در مورد این داده ها بسیار اهمیت دارد.

در این مقاله به آموزش روش های شناسایی و حذف داده های پرت خواهیم پرداخت.پس تا انتهای این آموزش همراه کیارا آکادمی باشید.

داده های پرت چیست ؟

فرض کنید شما یک پژوهشگر هستید، که قصد دارید در یک نمونه 100 نفری در یک شهرک، پرسشنامه ای را توزیع کنید. اکثر افرادی که به پرسشنامه شما پاسخ می دهند، در بازه سنی 20 الی 30 سال هستند ، ولی 6 نفر از پاسخگویان با سن 90 سال وارد پژوهش شما شده اند. اگر بعد از جمع آوری داده ها میانگین سنی را بگیرید، با وجود آن 6 نفر، میانگین بسیار متفاوتی را خواهید داشت. در اصل این 6 نفر به کلی آماره های شما را تغییر می دهند. به این 6 کیس و میزان سن آن ها داده پرت گفته می شود. داده پرت یا داده دورافتاده (Outlier) به آن دسته از داده ها گفته می‌شود، که فاصله زیادی با دیگر داده‌های تحقیق  داشته‌باشد، در اصل Outlier مقادیری است که نسبت به میانگین کل داده ها فاصله زیادی دارد.

علل ایجاد داده های پرت چیست؟

  1. اشتباه در طراحی مقیاس اندازه گیری (خطای اندازه گیری یا خطای ابزار)
  2. اشتباه در وارد کردن داده ها به نرم افزار (خطای پژوهشگر: مثلا پاسخ آزمون شونده به سوال سن عدد 30 بوده است، ولی خود محقق به اشتباه عدد 90 را تایپ کرده است )
  3. اشتباه خود پاسخ دهنده به سوالات (آزمون شونده نمی خواسته به سوال پاسخ درست دهد، چرا که سوال حساس بر انگیز بوده یا این که اصلا سوال را نخوانده است و فقط جواب داده و رفته سوال بعدی یا این که سوال را اشتباه مطالعه کرده است)

اهمیت شناسایی داده های پرت (Outlier)

وجود Outlier در تحلیل می تواند مشکلات بسیار جدی را برای تحلیل ایجاد کند. در ادامه به مشکلات ایجاد شده در تحلیل خواهیم پرداخت:

  1. حساس بودن روش های پارامتریک به داده های پرت: عدم وجود داده های دور افتاده برای بسیاری از آزمون های آماری پارامتریک یک پیش فرض مهم است. شما برای اجرای این دسته از آزمون ها باید داده های پرت خود را حذف یا اصلاح نمایید، چرا که این داده ها می تواند روش اجرای شما را زیر سوال ببرد.
  2. ایجاد خطا در نتایج : داده های دور افتاده می تواند نتایج بدست آمده را به کلی دچار اشکال کند. به این مثال توجه کنید : شما می خواهید میانگین درآمدی کارکنان یک شرکت را بررسی نمایید. از 50 نفر از این کارکنان درآمدشان را می پرسید. اکثر کارکنان با درآمد 5 الی 6 میلیون در ماه هستند، ولی 4 نفر از آنان با درآمد ماهانه 40 میلیون کار می کنند. آنان مربوط به سطوح بالای سازمان هستند. حال اگر بخواهید میانگین درآمدی را بگیرید و بگویید به طور میانگین درآمد افراد چقدر است، باید بدانید که اضافه کردن آن 4 نفر به تحلیل، به شما میانگین اشتباه و غیر واقع بینانه ای را می دهد. پس راهکار این است که این 4 نفر را از تحلیل کنار بگذارید و یا مثلا برای بخش مدیریت تحلیل ها و بررسی های جداگانه ای را ارایه دهید.
  3. تغییر شکل توزیع متغیرها: داده های دور افتاده می تواند شکل توزیع نرمال را تغییر دهد. نرمال بودن توزیع یکی از پیش فرض های بسیاری از تحلیل های آماری است و داده های پرت می تواند این توزیع را به هم بریزد .

تحلیل آماری

روش های تشخیص داده های پرت (Outlier)

برای شناسایی داده های پرت (Outlier Data) می‌توان از دو دسته روش استفاده کرد، یکی از روش ها ترسیم نمودارهای آماری است و روش دیگر استفاده از برخی از آزمون ها و تفسیر آماره ها است. در این بخش به آموزش کامل این روش ها خواهیم پرداخت:

شناسایی داده های پرت با نمودار جعبه ای

ترسیم نمودار جعبه ای می تواند به ما کمک نماید که بفهمیم، آیا ما داده های پرت داریم یا خیر؟ و این داده های پرت مربوط به کدام یک از کیس های تحقیق است؟ برای ترسیم این نمودار می توان از چندین روش استفاده نمود :

روش اول: روی بخش Graphs بروید و سپس گزینه Chart Builder را بزنید.

شناسایی داده های پرت با نمودار جعبه ای

سپس در بخشی که باز می شود، باید از قسمت Gallery گزینه Boxplot را که مربوط به ترسیم نمودار جعبه ای است را بکشید و به سمت قسمت بالا رها نمایید یا این که دو بار روی آن کلیک نمایید، تا شکل نمودار به کارد وسط انتقال یابد. سپس متغیرهای خود را که می خواهید نمودار جعبه ای را برای آن ترسیم نمایید وارد تحلیل کنید.

شناسایی داده های پرت با نمودار جعبه ای

روش دوم: از دستور Legacy Dialogs استفاده کنید و از بین گزینه های موجود در این بخش برای ترسیم نمودار (Chart) گزینه Boxplot را انتخاب کنید.

شناسایی داده های پرت با نمودار جعبه ای

سپس متغیرها را وارد تحلیل کنید و روی OK کلیک کنید:

شناسایی داده های پرت با نمودار جعبه ای

تفسیر خروجی های نمودار جعبه ای

همان طور که از تصویر مشخص است، داده هایی که از توزیع ما بسیار پرت هستند را در قالب یک سری شکل دایره ای در نمودار نشان می دهد. بالای هر کدام از این دایره ها عدد کیس مورد نظر را نیز نوشته است. شما می توانید به کیس های مشخص شده در نمودار مراجعه کنید و ببینید چرا جواب های آن ها پرت است؟ آزمون دهنده اشتباه کرده یا آزمون گیرنده؟

شناسایی داده های پرت با نمودار جعبه ای

شناسایی داده های پرت با نمودار میله ای

از طرفی می توانید برای تکمیل کار خود نمودار میله ای را نیز ترسیم نمایید، که به راحتی به شما نشان می‎دهد که آیا داده های پرت دارید یا خیر؟

شناسایی داده های پرت با نمودار میله ای

شناسایی داده های پرت با نمودار Q-Q

روش دیگر شناسایی داده های پرت، استفاده از نمودار چندک چندک است، که به ما نشان می دهد آیا متغیر ما دارای داده های دور افتاده است یا خیر؟ برای ترسیم این نمودار باید، ابتدا از منوی Analyze به بخش Descriptive statistics بروید و گزینه Q-Q Plot را بزنید. در گام بعدی باید متغیر مد نظر را باید وارد کادر روبه رو کنید و در نهایت گزینه 0k را بزنید تا خروجی ها ارایه شود .

شناسایی داده های پرت با نمودار Q-Q

خروجی Q-Q Plot

می توان نقاطی که از خط فاصله زیادی دارد را بررسی کرده و شناسایی کنید:

خروجی Q-Q Plot

آموزش ترسیم نمودار P-P Plot و Q-Q plot

شناسایی داده های پرت با نمره استاندارد (Z)

ابتدا باید بدانید که نمره استاندارد چیست؟ اگر شما بخواهید نمرات گروه ها را با هم مقایسه کنید، باید باید آن ها را به نمره استاندارد تبدیل کنید. چرا که هر کدام از این توزیع ها می تواند میانگین متفاوتی داشته باشد. برای این کار و محاسبه نمره استاندارد (یا نمره Z)، باید مقادیر را از میانگین گروه کم کنیم و بر انحراف معیار تقسیم کنیم .

نمره استاندارد (Z)

محاسبه آزمون z در spss

نمرات استاندارد می تواند مشخص کند، که کدام کیس های ما داده دور افتاده دارد. برای اجرای این روش در نرم افزار spss می‎توان از دو مسیر پیش رفت :

روش اول محاسبه نمره استاندارد: باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده، گزینه Linear را انتخاب کنید.

محاسبه آزمون z در spss

بعد از آن که متغیرهای تحقیق را وارد تحلیل کردید، باید بر روی قسمت save بزنید .

محاسبه آزمون z در spss

در قسمت save، تیک گزینه standardized را فعال نمایید. سپس Continue را بزنید. در آخرین گام روی OK کلیک کنید.

محاسبه آزمون z در spss

روش دوم محاسبه نمره استاندارد : باید در بخش Analyze در منو Descritive Statistics گزینه Descritives را بزنید. سپس باید گزینه ی Save standardized values as variables را فعال کنید و در پایان بر روی Ok کلیک کنید.
محاسبه آزمون z در spss

پس از اجرای آزمون استاندارد، نمرات استاندارد تمامی کیس های تحقیق در یک ستون محاسبه می شود. اگر مواردی در ستون باقی مانده استاندارد، بالای 3 یا زیر 3- باشد، باید آن ها را حذف کرد، چون موارد دور افتاده حساب می شوند.

محاسبه آزمون z در spss

شناسایی داده های پرت با فاصله ماهالانوبیس

روش دیگری که می توان با آن داده های پرت را در توزیع مشخص نمود، استفاده از فاصله ماهالانوبیس است. این روش بیشتر بر روش رگرسیون استفاده می شود. نحوه محاسبه فاصله ماهالانوبیس در SPSS بدین شکل است که، ابتدا باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده گزینه Linear را انتخاب کنید.

شناسایی داده های پرت با فاصله ماهالانوبیس

در گام بعدی متغیر وابسته و متغیرهای پیش بین را وارد تحلیل کنید. سپس وارد بخش Save شوید و تیک Mahalanobis را انتخاب کنید. در پایان گزینه ok را بزنید تا خروجی ها برای شما نمایش داده شود.

شناسایی داده های پرت با فاصله ماهالانوبیس

در خروجی های نرم افزار باید فاصله ماهالانوبیس را پیدا کنید. از ماکسیموم این فاصله می توانید مقدار بحرانی آن را مشخص نمایید.

شناسایی داده های پرت با فاصله ماهالانوبیس

بعد از دیدن مقدار ماکسیموم باید به جدول زیر مراجعه نمایید. بر اساس تعداد متغیرهای پیش بین تحلیل، مشخص شده که مقدار بحرانی ماهالانوبیس چند است. اگر عدد ماکسیموم خروجی، بزرگ تر از مقدار بحرانی بود، یعنی این که ما مقادیر پرت مشکل ساز داریم.

مقدار بحرانی ماهالانوبیس

در گام نهایی شما باید به داده های اصلی مراجعه نمایید. نرم افزار برای شما ستون جدیدی را تحت عنوان MAH ایجاد کرده است. این مقادیر را از بزرگ به کوچک مرتب کنید و کیس هایی که مقدار ماهالانوبیس آن ها بالا تر از مقدار بحرانی بوده را از تحلیل خود حذف نمایید.

مقدار بحرانی ماهالانوبیس

آموزش رگرسیون خطی ساده در نرم افزار SPSS

ترسیم نمودار Scatterplot برای شناسایی داده های پرت

روش دیگر این است که یک نمودار پراکندگی برای دو متغیر تحلیل ترسیم کنید. نکته ای که در مورد این نمودار باید رعایت شود این است که، دو متغیر تحلیل باید با مقیاس (Measure) فاصله ای (Scale) سنجیده شده باشد. وجود نقطه پراکنده در نمودار، نشان دهنده داده های پرت است. پیشنهاد می کنم برای حرفه ای شدن در تحلیل های آماری از دوره spss کیارا آکادمی دیدن کنید. برای استفاده از دوره جامع spss می توانید از لینک زیر استفاده کنید:

آموزش رایگان spss

برای ترسیم می توانید از قسمت Graph‌ گزینه Chart Builder را انتخاب کنید. سپس دکمه OK را بزنید. از قسمت Gallery گزینه Scatter/Dot را به کادر وسط بکشید و سپس متغیرهای تحلیل را در محور های X و Y وارد کنید.

ترسیم نمودار Scatterplot برای شناسایی داده های پرت

روش برخورد با داده های پرت

به طور کلی بعد از آن که داده های خود را جمع آوری کردید، باید از روش هایی برای شناسایی داده های پرت استفاده کنید. بعد از این مرحله وارد تصمیم گیری در مورد داده های پرت می شوید. دو راهکار اصلی برای برخورد با داده های پرت وجود دارد:

روش اصلاح داده های پرت

در صورتی که امکان اصلاح داده ها وجود داشته باشد، می توان از این روش استفاده نمود. شما باید بررسی کنید، چرا داده پرت ایجاد شده است؟ ممکن است در اثر اشتباه تایپی خود شما باشد. برای بررسی این موضوع کافی است از روش زیر عمل نمایید :

شما باید در ابتدا در بخش Analyze در منو Descritive Statistics گزینه Frequencies را بزنید. سپس متغیر مورد نظر را وارد تحلیل نمایید. سپس گزینه Stattistics را بزنید. min و max را انتخاب کنید و در پایان OK را بزنید.

روش اصلاح داده های پرت

در خروجی های نرم افزار می توانید مقدار ماکسیموم و مینیموم را مشاهده کنید. مثلا در نظر بگیرید که در وارد کردن داده ها ممکن است، خطا از جانب شما باشد. به راحتی می توانید بر اساس جدول خروجی ببنید که کدام یک از کیس ها مقادیر پرت دارند. سپس به پرسشنامه مراجعه نمایید و اگر اشکالی در وارد کردن داده ها موجود بود می توانید به راحتی اصلاح نمایید.

روش اصلاح داده های پرت

روش دیگری هم برای بررسی داده های دور افتاده وجود دارد و آن این است که، در قسمت Frequencies می‎ توانید تیک Skewness را نیز بزنید تا چولگی را در جدول به شما نشان بدهد. مقدار آن مشخص کننده وجود داده های دور افتاده است.

شاخص های برازش مدل معادلات ساختاری

روش حذف داده های پرت

ممکن است داده های پرت شما در مرحله قبلی قابل اصلاح نباشد. مثلا به کلی، خود آزمون شوندگان به اشتباه پاسخ داده اند. در چنین حالتی باید این داده ها را در صورتی که تعداد آن ها زیاد باشد، از تحلیل حذف کرد. در این بخش، روش حذف کیس هایی که در آن داده پرت موجود است را آموزش خواهید دید:

آزمون داده های پرت

برای این آزمون باید به بخش Analyze بروید. در گام بعدی وارد بخش Descriptive Statistics شوید و گزینه Explore را انتخاب کنید.

آزمون داده های پرت

بعد از وارد کردن داده های تحلیل باید در قسمت Statistics گزینه Outilers را فعال نمایید. سپس ok را بزنید.

آزمون داده های پرت

در خروجی های نرم افزار می توانید لیستی از داده های دور افتاده تحلیل را به همراه شماره کیس آن مشاهده نمایید. این لیست شما را برای حذف این مقادیر از تحلیل کمک می کند.

آزمون داده های پرت

خلاصه روش های یافتن دیتا پرت

نقاط پرت، نقاط داده ای هستند که با سایر نقاط داده فاصله دارند. به عبارت دیگر، آنها مقادیر غیرعادی در یک مجموعه داده هستند. نقاط پرت برای بسیاری از تحلیل‌های آماری مشکل‌ساز هستند، زیرا می‌توانند باعث شوند که آزمایش‌ها یافته‌های مهم را از دست بدهند یا نتایج واقعی را تحریف کنند.یافتن نقاط پرت به دانش موضوعی و درک فرآیند جمع آوری داده ها بستگی دارد. در حالی که هیچ تعریف ریاضی محکمی وجود ندارد، دستورالعمل ها و آزمون های آماری وجود دارد که می توانید برای یافتن نامزدهای پرت از آن ها استفاده کنید.

نقاط پرت مقادیری هستند که به طور قابل توجهی با سایر نقاط داده متفاوت هستند و می توانند در روش های آماری مشکل ایجاد کنند. برخی از روش ها:

صفحه داده خود را برای یافتن موارد پرت مرتب کنید. مرتب سازی دیتا یک راه ساده اما موثر برای برجسته کردن مقادیر غیرمعمول است. به سادگی برگه داده خود را برای هر متغیر مرتب کنید و سپس به دنبال مقادیر غیرمعمول بالا یا پایین باشید. نمودار سازی داده های خود برای شناسایی موارد پرت: نمودارهای جعبه ای، هیستوگرام ها و نمودارهای پراکنده می توانند نقاط پرت را برجسته کنند. باکس‌پلات‌ها ستاره‌ها یا سایر نمادها را روی نمودار نشان می‌دهند تا به صراحت نشان دهند که چه زمانی مجموعه داده‌ها حاوی مقادیر پرت هستند. نمودار جعبه زیر مجموعه داده نمونه ما را نشان می دهد. واضح است که مقدار پرت کاملاً متفاوت از مقدار داده معمولی است.  هیستوگرام ها نیز بر وجود نقاط پرت تاکید می کنند.

آموزش جامع spss

محمد صادق کیانی
محمد صادق کیانی
روانشناس سازمانی و تحلیلگر آماری

10 پاسخ

    1. ببین در کل آزمون z یک آزمون آماری برای تعیین این که آیا میانگین دو جامعه زمانی که واریانس‌ها مشخص است و حجم نمونه بزرگ است یا خیر متفاوت است یا خیر؟
      آزمون z یک آزمون فرضیه است که در آن آماره z از توزیع نرمال پیروی می کند.
      آمار z یا z-score عددی است که نتیجه آزمون z را نشان می دهد.
      آزمون‌های Z ارتباط نزدیکی با آزمون‌های t دارند، اما آزمون‌های t زمانی بهتر انجام می‌شوند که آزمایش حجم نمونه کوچکی داشته باشد.

      حالا بیا لطفا این مقاله را بخون تا کامل یاد بگیری:
      https://kiaraacademy.com/z-test-in-r/

  1. نمودارهای جعبه ای، هیستوگرام ها و نمودارهای پراکندگی کدومشون بهتره برای دیتا پرت؟؟؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *