یافتن مشاهدات پرت :
مشاهدات پرت تحلیلهای آماری را مشکل میسازند.
هنگام تحلیل دادهها، گاهی اوقات مقادیری دور از بقیه دادهها پیدا میکنید چنین مقادیری مشاهدات پرت نامیده میشود.
هنگامی که شما با یک مشاهده پرت روبهرو میشوید ممکن است وسوسه شوید که آن را حذف کنید.
در ابتدا از خود این سوالها را بپرسید :
- آیا این مقدار را به طور صحیح وارد کامپیوتر شده؟
اگر خطایی در وارد کردن دادهها دارد آن را تصحیح کنید.
- آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟
- آیا آن مشاهده از یک تنوع زیستی سبب شده است ؟
اگر هر مقدار، از یک شخص مختلف بیاید آن مشاهده ممکن است یک مقدار صحیح باشد و علت آن مشاهده علت فردی است که با دیگران تفاوت دارد.
بعد از پاسخ منفی به این سوالها، شما باید تصمیم بگیرید که با این مشاهدات چه کار کنید ؟
که 2 احتمال وجود دارد:
- یک امکان این است که آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید که آن مقدار از جامعهای میآید که دیگر مقادیر آمدهاند بنابراین باید محاسبه شود.
- امکان دیگر آن است که مشاهده پرت از یک خطا ناشی شود (مانند صفره یا سوراخی در فیلتر).
وقتی یک مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه میآید که گمراه کننده است و باید از دادهها حذف شود.
مسأله این است که شما هرگز مطمئن نیستید که کدام از این امکانها درست است.
به طور آشکار هیچ محاسبات ریاضی به شما نخواهد گفت که آن مشاهده پرت از جامعه همانند یا مختلف از بقیه دادهها میآید اما محاسبات آماری میتواند به این سوال پاسخ دهد.
اگر مقادیر واقعاً همه نمونه گرفته شده از یک توزیع باشند شانسی که یک مقدار دور از بقیه دادهها باشد چیست؟
اگر این احتمال کوچک باشد شما نتیجهگیری خواهید کرد که با احتمال زیاد مشاهده پرت یک مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.
آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر کردهاند.
همه روشها در ابتدا معلوم میکنند که این شاهدات پرت چقدر از بقیه نقاط دور هستند.
این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار که استاندارد کردن آن است بدست میآید.
سپس مقدار p-value را برای این سوال مقایسه میکنیم.
که اگر مقدار p- value کوچک باشد شما نتیجه میگیرد که انحراف مشاهده پرت از بقیه نقاط معنی دار است.
پس وقتی در منابع مشاهدات پرت جستجو میکنیم در ابتدا باید بررسی کنیم که در ثبت و وارد کردن دادهها خطایی نباشد.
برای کاهش رخداد در خطای ثبت دادهها از برنامهای استفاده کنید که امکان اجرای محاسبات روی چندین ستون اعداد را برقرار کند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثههایی هستند که به ندرت رخ میدهند مانند یک روز 70 درجه در ژانویه در OREGON
چرا مشاهدات پرت مسأله و مشکل هستند ؟
روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این که تحلیلهای آماری را پیچیده میکنند بخش مهمی از تمام تحلیل را در برمیگیرد.
برای مثال با حضور مشاهده پرت در هر آزمون آماری میانگین و انحراف معیار تحریف میشود.
برآورد ضرایب رگرسیون که مجموع مربعات خطا را مینیمم میکند بسیار تحت تأثیر مشاهده پرت است.
چندین عامل تأثیر گذار از مشاهدات پرت عبارت است از :
- اریبی با تحریف برآوردها
- زیاد نشدن مجموع توان دومها
- تحریف p-value
- نتیجهگیری غلط
مثال زیر ممکن است خیلی بزرگ به نظر بیاید اما دادههای حقیقی با این مشخصات وجود دارند.
اما نتایج به روشنی ثابت میکنند که مشکلات ناشی از مقدارهای غیر عادی در کمین هستند.
Median mean variance %95confiedence interval for mean
(0.45,11.5) 20 6 5 12 9 5 3 1 Real Data
(-36.63 ,91.83) 2676.8 27.6 5 120 9 5 3 1 Data Error
4 داده اول در هر سطر همانند هم هستند.
هر چند در سطر دوم پنجمین عدد اختلاف زیادی در مقایسه با سطر بالای خود دارد.
توجه کنید که حضور مشاهده پرت در میانه تغییری ایجاد نکرده است (میانه قوی نامیده میشود) و توجه کنید که مشاهده پرت به شدت میانگین و واریانس و فاصله اطمینان 95% برای میانگین را تحریف کرده است.
نتایج مشابه در رگرسیون، آنالیز واریانس یا هر روش دیگر به کار برده شده چگونه یک مشاهده پرت را کشف کنیم؟
بررسی و کمک چشمی : این روش بررسی توزیع مقادیر دادهها به وسیله سطوح یک متغیر است این روش همیشه باید یکی از اولین قدمها در تحلیل باشد و این روش مشاهدههای پرت واضح را به سرعت آشکار میکند.
برای دادههای پیوسته و فاصلهها، روش دیداری به عنوان نمودار نقطهای و نمودار پراکنش روشهای خوبی برای بررسی اینکه مشاهده پرت است میتواند باشد.
یک boxplot ابزار مفید دیگری برای کشف مشاهده پرت است.
آزمونهای یک متغیری حضور مشاهده پرت را بررسی میکنند اگر چه بسیاری از آنها فقط برای بررسی حضور یک مشاهده پرت طراحی شدهاند.
محاسبه IQR : inter – quartile که این روش در یک boxplot برای تشخیص مشاهده پرت استفاده میشود.
استفاده یک boxplot روش بسیار اثر بخش است مخصوصاً وقتی که با یک مجموعه دادههای زیاد و دادههای پیوسته به کاربرده شود.
یک راه برای انجام داده محاسبات IQR استفاده PRO cuniuariate با استفاده از نرم افزار SAS است که q1 (اولین چارک) و q3 (سومین چارک) میتواند در یک فایل خروجی ذخیره شود.
اگر مشاهدهای خارج از باشد به عنوان مشاهده پرت است.
مشاهدات پرت چند متغیری میتواند در یک تحلیل ناشناخته بمانند.
آزمونهای تک متغیری برای مشاهدات پرت چند متغیری طراحی نشدهاند.
برای دو مقدار دادههای x2,x1 ، یکی از آن ممکن است به وسیله آزمونهای تک متغیری رسیدگی شود (همان طور که در بالا توضیح داده شد) اگر چه ترکیب دو مقدار آنها در فضای دو بعدی میتوانند خارج از پیرامون دادهها واقع شود.
با مشاهدات پرت چه باید کرد؟
به طور مؤثر کار با مشاهدات پرت در دادههای عددی میتواند نسبتاً مشکل و باطل باشد هر چند این دادهها میتوانند کاملاً صحیح باشند، ولی اگر آنها هم خارج از محدوده دادهها باشند باعث اشتباه در محاسبات میشوند.
بعضی از روشهای ممکن برای کار کردن با مشاهدات پرت در زیر آورده شده است : تبدیل : تبدیل دادهها یک راه برای کاستن فشار مشاهدات پرت است.
که با جذر گرفتن و یا لگاریتم مقدارهای بزرگ تبدیل به مقدار کوچکی میشود.
حذف کردن : حذف کردن همیشه باید به عنوان آخرین تصمیم باشد.
و اگر فقط تشخیص دهید که دادههای پرت واقعاً خطا هستند و صحیح نمیباشند باید حذف شوند که استنباطهای آماری را تحریف میکنند.
تبدیل و حذف دادهها ابزارهای مهمی هستند ولی نباید علاج هر توزیع باشند تبدیل و حذف دادهها باید یک انتخاب با اطلاع باشند نه یک امر عادی.
همسازی یا تطابق : همان طور که گفته شد منابع مشاهدات پرت عبارت است از ثبت و اندازه گیری نادرست – ترکیب دادههای ناشناخته یا اثر جدید همچنین فرض غلط در مورد توزیع دادهها میتواند دادهها را به عنوان یک مشاهده پرت هدایت کند.
دادههایی که به خوبی در یک توزیع بر ارزش نشدهاند ممکن است در یک توزیع دیگر به خوبی برازش نشوند.
همان طور که در شکل نشان داده شده است ترکیب و ارتباط دادههای ناشناخته میتواند سبب ظاهر شدن مشاهده پرت شود.
ممکن است دادههایی که مکانیسم مختلف دارند با هم ترکیب شوند در حالی که باید هر کدام جداگانه و به طور مستقل تحلیل نشوند همان طور که در شکل نشان داده شده است.
چند آزمون رایج برای شناساییی مشاهده پرت 1) Grubbs test این آزمون بسیار آسان است که روش ESD نیز نامیده میشود.
(extrme studentized deviate) اولین گام این است که مشخص کنیم که این مشاهده پرت چقدر از بقیه مشاهدات دور است ؟
محاسبه مقدار z بر مبنای اختلاف بین مشاهده پرت و میانگین، تقسیم بر انحراف معیار است .
اگر z بزرگ باشد این مقدار مشاهده پرت است.
وقتی 5% مقادیر در جامعه از 96.
1 انحراف معیار از میانگین بیشتر باشند، نتیجه گیری میشود که مشاهده پرت از یک جامعه متفاوت میآید.
این روش وقتی درست کار میکند که شما میانگین و انحراف معیار جامعه را بدانید، اگر چه این به ندرت پیش میآید که اغلب موارد در کنترل کیفیت است.
هنگام تحلیل دادههای آزمایشی شما انحراف معیار جامعه را نمیدانید، در عوض شما انحراف معیار دادههای موجود را محاسبه میکنید.
حضور یک مشاهده پرتSD محاسبه شده را افزایش میدهد.
مقدار Z نمیتواند بزرگتر از شود که n تعداد مقادیر است به طور مثال اگرN=3 باشد، Z نمیتواند بزرگتر از 1.55 (برای هر مجموعه مقادیری) شود.
گرابس و دیگران مقادیر بحرانی Z را جدول بندی کردهاند.
که مقادیر بحرانی با اندازه نمونه افزایش پیدا میکند.
اگر مقدار Z محاسبه شده بزرگتر از مقادیر بحرانی در جدول شوند پس p-value کمتر از 0.05 میشود.
توجه کنید که این روش فقط برای آزمودن حداکثر مقادیر در نمونه کار میکند یکبار مشاهده پرت راشناسایی میکنید.
ممکن است تصمیم بگیرید که آن مشاهده را از تحلیل حذف کنید یا آن را نگه دارید.
اگر شما تصمیم بگیرید که آن مشاهده را حذف کنید شما ممکن است دچار وسوسه شوید که دوباره این آزمون را اجرا کنید که ببینید نقطه پرت دومی در دادهها وجود دارد یا خیر؟
اگر شما این کار را انجام دهید، دیگر نمیتوانید از همان جدول استفاده روزنر این روش را برای شناسایی چندین نقطه پرت در نمونه تمدید کرده است.
مقادیر بحرانی برای z : مقدار z را همان طور که در بالا نشان داده شد محاسبه کنید و به مقادیر بحرانی در جدول بالا مراجعه کنید که n تعداد مقادیر در گروه است.
اگر مقدارz محاسبه شده بیشتر از مقدار جدول باشد p-value کمتر از 0.05 میشود.
محاسبه یک p-value تقریبی : شما همچنین میتوانید یک p-value تقریبی به صورت زیر محاسبه کنید.
1) مقدار عبارت زیر را محاسبه کنید.
N تعداد مقادیر در نمونه است.
2) مقدار p متناظر T را تعیین کنید.
مقدار p-value دو طرفه برای توزیع –T استودنت با درجه آزادی N-2 را جستجو کنید.
3) مقدار P بدست آمده در گام دوم را در N ضرب کنید.
نتیجه یک تقریب p-value برای آزمون مشاهده پرت است.
این p-value شاخص مشاهده یک نقطه دور از بقیه نقاط است.
اگر Z بزرگ باشد این مقدار خیلی دقیق خواهد بود.
با مقادیر Z کوچکتر p-value محاسبه شده ممکن است بسیار بزرگ باشد.
تعریف دیگری از آزمون Grubbs برای یافتن مشاهده پرت : این آزمون نیز بر مبنای فرض نرمال بودن بنا شده است.
که قبل از به کار بردن این آزمون باید بررسی کنید دادهها تقریب نرمال داشته باشند Grubb's test یک نقطه پرت (دور افتاده) را در مجموعه دادههای آشکار میکند و آن مشاهده پرت حذف میشود و آزمون دوباره تکرار میشود تا اینکه هیچ مشاهده پرتی پیدا نشود.
اگر چندین تکرار احتمال آشکارسازی را تغییر میدهد و آزمون نباید برای اندازه نمونه کمتر از 6 استفاده شود.
این آزمون به وسیله فرض زیر تعریف میشود.
هیچ مشاهده پرتی در مجموعه دادهها وجود ندارد.
H0 حداقل یک مشاهده پرت در مجموعه دادهها وجود دارد.
H1 : آماده آزمون با میانگین و انحراف معیار آن مشخص میشود و آماده آزمون بیشترین انحراف از میانگین نمونه تقسیم بر انحراف معیار است.
که این یک آزمون فرض دوطرفه است و همچنین میتواند به عنوان فرض یکطرفه تعریف شود.
آزمون اینکه آیا کوچکترین مقدار مشاهده پرت است.
که با ymin کوچکترین مقدار تعیین میشود.
آزمون اینکه آیا بیشترین مقدار یک مشاهده پرت است.
که با ymax بیشترین مقدار مشخص مشخص میشود.
سطح معناداری : ناحیه بحرانی برای آزمون دو طرفه و فرض اینکه هیچ مشاهده پرتی وجود ندارد، هنگامی رد میشود که : که مقدار بحرانی توزیع T استودنت با درجه آزادی N-2 و سطح معناداری مشخص میشود.
برای فرض یک طرفه یک سطح معنی داری استفاده میکنیم.
در فرمول بالا برای ناحیه بحرانی پیروی میکند.
از قرار داد اینکه مقدار بحرانی بالایی از توزیع مقدار بحرانی پایینی از توزیع T است.
که یک نمونه خروجی برای این آزمون در زیر آورده شده : *** Grubbs test y *** Grubbs test for outlier (Assumption : Normality) l.
statistics : number of observation = 195 Minimum = 9.196 Mean = 9.261 Maximum = 9.327 Standard devation = 0.227 Grubbs test statistic =2.918 2.
Percent points reference distribution for Grubbs test statistic: 0 % point = 0.00 50 % point = 2.48 75 % point = 3.181 90 % point = 3.424 95 % point = 3.597 97.5 % point = 3.763 99 % point = 13.892 تفسیر خروجی : خروجی به سه قسمت تقسیم میشود : مرحله اول آماده آزمون را محاسبه میکند.
مرحله دوم مقدار بحرانی بالایی را برای آماده آزمون در سطوح معنیداری مختلف را چاپ میکند.
مقدار سطوح اول سطح اطمینان آزمون است که معادل 100 است که ما فرض صفر را رد میکنیم.
اگر مقدار آماده آزمون چاپ شده در مرحله اول از مقدار بحرانی چاپ شده در آخرین ستون بزرگتر باشد.
قسمت سوم نتیجه را برای یک آزمون 95% چاپ میکند.
برای یک سطح معنی داری مختلف، نتیجه میتواند از جدول چاپ شده در مرحله دوم کشیده شود.
برای مثال برای ما به سطح اطمینان 90% نگاه میکنیم و مقدار بحرانی 3.42 را با آماده آزمون 2.92 مقایسه میکنیم که آماده آزمون کوچکتر از ناحیه بحرانی است و ما فرض صفر را برای سطح میپذیریم.
این آزمون میتواند برای پاسخ به سؤالهای زیر استفاده شود : آیا مجموعه دادهها حاوی مشاهده پرت هستند ؟
چه تعدادی مشاهده پرت در دادهها وجود دارد ؟
بسیاری از روشهای آماری برای حضور مشاهده پرت بسیار حساس هستند.
برای مثال محاسبات ساده میانگین و انحراف معیار ممکن است به وسیله یک داده غلط تحریف شود.
بررسی برای مشاهدات پرت باید قسمت عادی هر تحلیل آماری باشد.
نقاط پرت باید بررسی شوند.
اگر آنها نادرست باشند باید اگر امکان داشته باشد تصحیح گردد و اگر هیچ دلیلی برای نادرستی آنها نباشد حذف شود Dixon's test برای یافتن یک مشاهده پرت تنها : معمولاً یک مشاهده پرت به عنوان پرت به عنوان یک مشاهدهای که از یک مدل مختلف یا توزیع مختلف از بقیه دادهها تولید میشود معرفی میگردد.
اگر چه این تعریف اشاره میکند که یک مشاهده پرت ممکن است هر کجا در دامنه دادهها پیدا شود.
و این امر طبیعی است که شک کنیم و امتحان کنیم که مقادیر حداکثر به عنوان یک مشاهده پرت باشد رد مشاهدات مشکوک باید بر مبنای یک ضابطه واقعی باشند و آن میتواند با استفاده از آزمونهای درست آماری به دست آید.
آزمون Dixan یک آزمون ساده است و بیشتر در کتابهای شیمی تجزیه در فصلهای طرز عمل عمل دادهها استفاده میشود.
این آزمون بر مبنای توزیع آماری subrange ratios و نمونه دادههای مرتب شده و از جامعه نرمال است.
بنابراین یک توزیع نرمال از دادهها فرض شده است.
در مورد آشکار سازی ورود مشاهدات دور افتاده این آزمون نمیتواند روی مجموعه مشاهدات باقی مانده تکرار شود.
چگونه این آزمون به کار برده میشود : این آزمون بسیار ساده و کاربرد آن به صورت زیر است : N مقدار که در برگیرنده دادهها و تعداد دادهها به صورت صعودی مرتب میشوند.
X1 آماده آزمون Qexp (experimental Q - value) به صورت زیر محاسبه میشود.
این آماره سنتی است که اختلاف بین مقدار مشکوک و نزدیک ترین مقدار آن تقسیم بر دامنه دادهها است.
مقدار Qexp بدست آمده با مقادیر بحرانی (Qcrit) مقایسه میشود.
اگر Qcrit > Qexp باشد پس مقدار مشکوک میتواند به عنوان یک مشاهده پرت باشد و گرنه مشاهده باید در تمام محاسبات استفاده شود.
فرض صفر این آزمون به صورت زیر تعریف میشود : هیچ اختلاف معنی داری بین مشاهده مشکوک و بقیه دادهها وجود ندارد.
جدول مقادیر بحرانی برای سطح اطمینانهای 90% و 95% و 99% و مقدارهای 10 تا N=3 به صورت زیر است .
مثال : مشاهدات زیر کد در طی یک اندازه گیری به دست آمدهاند و سپس مرتب شدهاند.
4.85 , 6.18, 6.28, 6049, 6.69 این مقادیر میتوانند به صورت نمودار نقطهای نمایش داده شوند.
آیا میتوان مشاهده 4.85 را به عنوان مشاهده پرت در سطح اطمینان %95 حذف کرد؟
پاسخ : مقدار آماده آزمون : مقدار آماده از مقدار بحرانی متناظر آن در جدول که عدد 0.710 بزرگتر است و ما میتوانیم فرض صفر را رد کنیم و آن نقطه را حذف کنیم.
یک توضیح عمومی در مورد رد نقاط پرت : همه آزمونهای برای رد دادههای پرت باید به طور صحیح استفاده شوند.
پیشنهاد دیگر همسازی آن مشاهده پرت است نه رد آنها.
که با کم کردن وزن آماری آن صورت میگیرد.
3) در آزمون Z-SCORE برای کشف مشاهدات پرت : میانگین و انحراف معیار تمام مجموعه دادهها بدست آوردن یک نمره z (برای هر نقطه) (Z-SCORE) استفاده میشود.
این آزمون نشان میدهد که یک مشاهده با یک نمره z بزرگتر از 3 یک مشاهده پرت میباشد.
ولی این روش، روش قابل اطمینانی است وقتی هر دوی میانگین و انحراف معیار به وسیله مشاهدات پرت تأثیر داده شدند.
در آزمون Z-SCORE اصلاح شده : این روش بر مبنای برآوردهای پایدار مشاهده پرت است.
میانه انحراف مطلق درباره (MAD) چنین برآوردی است .
(Median of absolute deviation) وقتی مشاهدهای با Z-SCORE اصلاح شده بزرگتر از 3.5 باشد آن مشاهده، مشاهده پرت است.
4) آزمون Rosner : این آزمون برای کشف k تا مشاهده پرت میتواند استفاده شود که تعداد دادهها باید بیشتر از 25 باشد.
این آزمون مشاهدات پرتی که هم بیشترین مقدار و هم کمترین مقدار را دارند مشخص میکند بنابراین همیشه دوطرفه است.
ابتدا دادهها رتبه بندی میشوند (به صورت صعودی) و میانگین و انحراف معیار آنها تعیین میشود.
سپس یک آماره آزمون (R) محاسبه میشود.
سپس آماره R با مقادیر بحرانی مقایسه میشود و این فرض بر مبنای توزیع نرمال دادههاست.
اگر مقدار R کمتر از مقدار بحرانی شود فرض صفر نمیتواند رد شود.
و اگر مقدار R بزرگتر از مقدار بحرانی شود فرض صفر رد میشود و حضور K مشاهده پرت پذیرفته میشود.
این آزمون همچنین با توزیع لگ نرمال نیز میتواند استفاده شود.
5) آزمون Chi – squared این آزمون برای نمایش دادن یک مشاهده پرت تنها است که بر مبنای توزیع کای – دو بنا شده است که آماده آن بصورت است که با مقادیر که بر مبنای بحرانی جدول مقایسه میشود.
این آزمون دیگر امروزه رایج نیست و استفاده نمیشود و به جای آن از چندین آزمونهای قوی دیگر استفاده میشود.
6 ) روش دیگر برای شناسایی مشاهده پرت نمودار boxplot است این روش یک روش چشمی است که مقادیری که خارج از فاصله اطمینان به عنوان یک نقطه تنها است مشاهده پرت است.
دامنه چارکها شامل یک جعبه با فاصله اطمینانهای 5% و 95% میشود.
حد فاصله اطمینان 95% حد فاصله اطمینان 5% (0.45,11.5)2065129531Real Data(-36.63 ,91.83)2676.827.651209531Data Error Q crit 99%Q crit 95%Q crit 90%N0.9940.9700.94130.9260.8290.76540.8210.7100.64250.7400.6250.56060.6800.5680.50770.6340.5260.46880.5980.4930.43790.5680.4660.41210 zixi-0.340.13.20.00.03.316.194.88.10.340.13.2-1.350.42.91.350.43.7-0.670.23.10.670.23.50.00.03.319.905.99.2