یافتن مشاهدات پرت :
مشاهدات پرت تحلیلهای آماری را مشکل میسازند. هنگام تحلیل دادهها، گاهی اوقات مقادیری دور از بقیه دادهها پیدا میکنید چنین مقادیری مشاهدات پرت نامیده میشود.
هنگامی که شما با یک مشاهده پرت روبهرو میشوید ممکن است وسوسه شوید که آن را حذف کنید. در ابتدا از خود این سوالها را بپرسید :
- آیا این مقدار را به طور صحیح وارد کامپیوتر شده؟ اگر خطایی در وارد کردن دادهها دارد آن را تصحیح کنید.
- آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟
- آیا آن مشاهده از یک تنوع زیستی سبب شده است ؟ اگر هر مقدار، از یک شخص مختلف بیاید آن مشاهده ممکن است یک مقدار صحیح باشد و علت آن مشاهده علت فردی است که با دیگران تفاوت دارد.
بعد از پاسخ منفی به این سوالها، شما باید تصمیم بگیرید که با این مشاهدات چه کار کنید ؟
که 2 احتمال وجود دارد:
- یک امکان این است که آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید که آن مقدار از جامعهای میآید که دیگر مقادیر آمدهاند بنابراین باید محاسبه شود.
- امکان دیگر آن است که مشاهده پرت از یک خطا ناشی شود (مانند صفره یا سوراخی در فیلتر). وقتی یک مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه میآید که گمراه کننده است و باید از دادهها حذف شود.
مسأله این است که شما هرگز مطمئن نیستید که کدام از این امکانها درست است.
به طور آشکار هیچ محاسبات ریاضی به شما نخواهد گفت که آن مشاهده پرت از جامعه همانند یا مختلف از بقیه دادهها میآید اما محاسبات آماری میتواند به این سوال پاسخ دهد. اگر مقادیر واقعاً همه نمونه گرفته شده از یک توزیع باشند شانسی که یک مقدار دور از بقیه دادهها باشد چیست؟ اگر این احتمال کوچک باشد شما نتیجهگیری خواهید کرد که با احتمال زیاد مشاهده پرت یک مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.
آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر کردهاند. همه روشها در ابتدا معلوم میکنند که این شاهدات پرت چقدر از بقیه نقاط دور هستند. این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار که استاندارد کردن آن است بدست میآید.
سپس مقدار p-value را برای این سوال مقایسه میکنیم. که اگر مقدار p- value کوچک باشد شما نتیجه میگیرد که انحراف مشاهده پرت از بقیه نقاط معنی دار است.
پس وقتی در منابع مشاهدات پرت جستجو میکنیم در ابتدا باید بررسی کنیم که در ثبت و وارد کردن دادهها خطایی نباشد. برای کاهش رخداد در خطای ثبت دادهها از برنامهای استفاده کنید که امکان اجرای محاسبات روی چندین ستون اعداد را برقرار کند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثههایی هستند که به ندرت رخ میدهند مانند یک روز 70 درجه در ژانویه در OREGON
چرا مشاهدات پرت مسأله و مشکل هستند ؟
روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این که تحلیلهای آماری را پیچیده میکنند بخش مهمی از تمام تحلیل را در برمیگیرد.
برای مثال با حضور مشاهده پرت در هر آزمون آماری میانگین و انحراف معیار تحریف میشود. برآورد ضرایب رگرسیون که مجموع مربعات خطا را مینیمم میکند بسیار تحت تأثیر مشاهده پرت است.
چندین عامل تأثیر گذار از مشاهدات پرت عبارت است از :
- اریبی با تحریف برآوردها
- زیاد نشدن مجموع توان دومها
- تحریف p-value
- نتیجهگیری غلط
مثال زیر ممکن است خیلی بزرگ به نظر بیاید اما دادههای حقیقی با این مشخصات وجود دارند. اما نتایج به روشنی ثابت میکنند که مشکلات ناشی از مقدارهای غیر عادی در کمین هستند.
Median mean variance %95confiedence interval for mean
(0.45,11.5) 20 6 5 12 9 5 3 1 Real Data
(-36.63 ,91.83) 2676.8 27.6 5 120 9 5 3 1 Data Error
4 داده اول در هر سطر همانند هم هستند. هر چند در سطر دوم پنجمین عدد اختلاف زیادی در مقایسه با سطر بالای خود دارد.
توجه کنید که حضور مشاهده پرت در میانه تغییری ایجاد نکرده است (میانه قوی نامیده میشود) و توجه کنید که مشاهده پرت به شدت میانگین و واریانس و فاصله اطمینان 95% برای میانگین را تحریف کرده است.