- مقدمه:
در این نوشتار قصد داریم به معرفی آنالیز اجزا اصلی (Principal components analysis) به پردازیم.
آنالیز اجزا اصلی (pca) یک تکنیک مفید آماری است که کاربرد آن در زمینه های از قبیل : تشخیص چهره،فشرده سازی تصویر و یک تکنیک رایج برای شناسایی یک نمونه در داده های از بعد بالا است.
این تبدیل که با اسامی دیگری چون هتلینگ(Hostelling Transform)، کارهانن-لو(Karhunen-Live Transform(KLT)) و بردار های ویژه نیز شناخته می شود،تبدیل بهینه در کار های فشرده سازی و کاهش بعد است و خطای میانگین مربعات حاصل از فشرده سازی را کمینه می کند.
هر چند این تبدیل به علت وابسته بودن به داده ورودی، جای خود را در الگوریتم های کاربردی و عملی، به تبدیل گسسته کسینوسی(Discret Cosine Transform(DCT)) داده است اما در صورت کافی بودن داده ورودی می تواند تبدیل بهینه را استخراج نماید.
آنالیز اجزای اصلی یک روش اختیاری چند منغیری است.
اگر ما در جایی مجبور هستیم مهم ترین متغیر را یا یک تعداد محدودی از متغیر ها را دریک مجموعه انتخاب کنیم از آنالیز اجزای اصلی کمک می گیریم .
آنالیز اجزای اصلی می تواند هم چنین برای پیدا کردن سیگنال ها در اطلاعات نویزدار به کار رود.
قبل از این که از آنالیز اجزا اصلی توصیفی به دست آوریم ابتدا به معرفی مفاهیمی ریاضی که در آنالیز اجزا اصلی استفاده می شود می پردازیم.
این قسمت انحراف معیار، کوورایانس ، بردارهای مشخصه و مقادیر ویژه را پوشش می دهد.این دور نما دانشی قابل فهم از قسمت های آنالیز اجزا اصلی فراهم می آورد.
در این نوشتار مثال های وجود دارد که از طریق آن معنی و مفهوم بحث را روشن می سازد.
2- ریاضیات زمینه(لازم):
در این قسمت تلاش می کند که مهارت های لازم در ریاضیات پایه مورد نیاز در آنالیز اجزا اصلی بدست آوریم.
به خاطر سپردن طرز کار صحیح تکنیک ریاضی نسبت به فهمیدن دلایل اهمیت کمتری دارد.
زیرا که یک تکنیک ممکن استفاده شود و نتیجه عملی به ما در مورد داده نهایی بگوید.
در این قسمت ابتدا به بخشی از آمار که در توزیع اندازه یا چگونگی پراکندگی داده ها است توجه می کنیم و در بخش دیگر به ماتریس جبری، مقادیر ویژه و بردار های مشخصه که مهمترین ویژگی یک ماتریس که اساس آنالیز اجزا اصلی توجه می کنیم.
2-1 آمار:
در سراسر بحث آماری ما با مجموعه نسبتا بزرگی از داده ها سر و کار داریم و باید ارتباط (وابستگی) بین مجموعه با نقاط خاص در آن مجموعه داده را تحلیل کنیم.
اما ما قصد داریم در مجموعه داده ها توجه کنیم به تعداد کمی از اطلاعات و نتیجه ای که درباره این مجموعه داده ها به ما می دهد.
2-1-1 انحراف معیار استاندارد :
برای فهمیدن انحراف معیار به یک مجموعه داده احتیاج داریم.
آمارشناسان معمولا علاقمند به نمونه گیری از جامعه هستند.
برای استفاده کردن از روش های نمونه گیری به عنوان مثال جامعه تمام مردم یک کشور است.
در حالی که یک نمونه یک زیر مجموعه از جامعه است که آمارشناسان اندازه می گیرند.
مطلب مهم دیگر درباره آمار اگر از سراسر جامعه استفاده می کنید این است که فقط با اندازه گیری یک نمونه از جامعه شما می توانید با اندازه گیری احتمال(سنجش احتمال) کار کنید.
در این بخش آماری قصد داریم فرض کنیم که اطلاعات ما نمونه ای از جامعه است.
در اینجا یک مثال وجود دارد:
X = [1 2 4 6 12 15 25 45 68 67 65 98]
از علامت Xبرای اشاره به مجموعه اعداد استفاده می کنیم.اگر به یک عدد خاص در مجموعه داده ها بخواهیم اشاره کنیم از یک زیر نویس بر روی علامت X استفاده کنیم که یک عدد خاص را نشان می دهد.
تعدادی مطلب درباره یک مجموعه داده است که ما می توانیم حساب کنیم.
برای مثال ما میانگین نمونه ها را می توانیم حساب کنیم.
چون با مفهوم میانگین نمونه ای آشنا هستیم فقط فرمول را ارائه می کنیم:
تعدادی مطلب درباره یک مجموعه داده است که ما می توانیم حساب کنیم.
چون با مفهوم میانگین نمونه ای آشنا هستیم فقط فرمول را ارائه می کنیم: این فرمول می گوید که همه اعداد با هم جمع شوند و سپس تقسیم به تعداد اعدادی که وجود دارد.
متاسفانه، میانگین به ما اطلاعات فراوانی به جز تقریبا برای نقطه وسط به ما نمی دهد.
برای مثال دو مجموعه داده مقابل دقیقا میانگین یکسان 10 دارند.
[0 8 12 20] , [8 9 11 12] اما تفاوت این دو مجموعه توزیع متفاوت اطلاعات است.به همین دلیل از انحراف معیار استفاده می کنیم (sd) .انحراف معیار یک مجموعه چگونگی توزیع داده ها است.
تعریف انحراف معیار:معدل فاصله از نقطه میانگین یک مجموعه داده.
از فرمول زیر استفاده می کنیم: مربع فاصله هر نقطه از میانگین مجموعه و آنها را جمع کرده و تقسیم بر n-1 می کنیم و ریشه دوم مثبت می گیریم.
علامتS معمولا برای نشان دادن انحراف معیار یک نمونه به کار می رود.
اگر مجبور به استفاده از سراسر جامعه بودید از تقسیم برn استفاده کنید و اگر از نمونه استفاده می کنید از تقسیم بر n استفاده کنید.
برای دو مجموعه بالا انحراف معیار در جداول زیر محاسبه شده اند: انتظار داریم مجموعه اول انحراف معیار بزرگتری داشته باشد به این خاطر که داده ها از میانگین فاصله بیشتری دارند.
فقط به عنوان یک مثال دیگر مجموعه داده های زیر میانگین و انحراف معیار 10 دارند زیرا همه اعداد یکی هستند.
هیچ کدام از آن ها از میانگین منحرف نمی شوند.
[10 10 10 10] 2-1-2 واریانس: واریانس معیار دیگری از پراکندگی مجموعه داده ها است.
در واقع تقریبا با انحراف معیار برابر است.
فرمول آن به صورت زیر است: با توجه هر دو علامت و فرمول متوجه می شوید که واریانس مربع انحراف معیار است.
S2 علامت معمولی برای واریانس یک نمونه است.
هر دو این مقیاس از پراکندگی داده ها هستند.
انحراف معیار مقیاس معمولی تری است.
اما واریانس هم استفاده می شود.
2-1-3 کوواریانس: دو مقیاس آخر که ما به آن ها توجه داریم صرفا کمی هستند.
مجموعه داده ها مانند موارد زیر می تواند باشد: بلندی همه افراد در یک اتاق،نمره های آخرین امتحان و غیره.
اما با وجود این برای تعداد زیادی از مجموعه داده ها می تواند بیش از یک بعد وجود داشته باشد و هدف از تحلیل آماری این مجموعه داده ها معمولا این است: ارتباطی که بین بعد ها وجود دارد را بفهمیم.
برای مثال ممکن است مجموعه داده هایمان هر دو بلندی همه دانش آموزان یک کلاس باشد .
ما میتوانیم تحلیل آماری آیا بلندی یک دانش آموز اثر بر روی نمودار دارد.
انحراف معیار و واریانس فقط بر روی یک بعد عمل می کنند.
شما فقط انحراف معیار را به طور جداگانه برای هر بعد از مجموعه داده ها می توانید حساب کنید.مفید است که مقیاسی برای اندازه گیری اختلاف از میانگین نسبت به یکدیگر داشته باشیم.
کوواریانس یک چنین مقداری است.
کوواریانس همیشه بین دو بعد اندازه گیری می شود.
اگر کوواریانس را بین یک بعد و خودش حساب کنید در واقع شما واریانس را حساب کرده اید.
اگر شما یک سری داده سه بعدی (X,Y,Z) داشته باشید می توانید کوورایانس را بین دو بعدX,Y دو بعد X,Z و دو بعدY,Z حساب کنید.
اندازه گیری کوواریانس بین X,X یا Y,Y و یا Z,Z به شما واریانس بعد های را به ترتیب می دهد.
فرمول محاسبه کوواریانس بسیار شبیه فرمول محاسبه واریانس است.
فرمول محاسبه واریانس را نیز می توان مشابه این عبارت نوشت: جمله درجه دوم نشان داده شده را به دو بخش بسط داده ایم زیرا این دانشی برای محاسبه کردن کوواریانس به ما می دهد.
این دقیقا همان فرمول واریانس است به جز آن که در دومین مجموعه از پرانتزهاY جایگزین X شده است.
تعریف کوواریانس: برای هر قلم داده تفاوت بین ارزشX و میانگینX را با تفاوت بین ارزشY ضرب می کند و تقسیم برn-1.
فرض می کنیم از یک گروه دانش آموز سوال شده است که در درس خاصی چه نمره ای دریافت کرده اند و چه تعداد ساعت آن ها در کل صرف مطالعه کرده اند.
بنا بر این ما دو بعد داریم اولین بعدH تعداد ساعت مطالعه است و دومین بعد M نمره کسب شده است.
شکل زیر به ما اطلاعات فرضی را نشان می دهد.
و cov(H,M) کوواریانس ساعت های مطالعه کردن و نمره گرفتن را محاسبه می کند.
بنا براین کوواریانس به چه چیزی را نشان می دهد؟
ارزش درست به اهمیت علامت آن (مثبت یا منفی) نیست.
اگر ارزش مثبت باشد، نشان می دهد که هر دو بعد با هم افزایش می یابند، مثلا افزایش ساعت مطالعه، نمره پایانی را افزایش می دهد.
اگر ارزش منفی است، اگر یک بعد افزایش یابد، بعد دیگر کاهش می یابد.
اگر کوواریانس را منفی بدست آوریم پس آنچه به ما می گوید مخالف هم هستند، که با افزایش ساعت مطالعه نمره پایانی کاهش می یابد.
در بعضی موارد که کوواریانس صفر می شود نشان می دهد که دو بعد مستقل از هم هستند.
نتیجه ای که با افزایش نمره به ما می گوید مثلا افزایش ساعت مطالعه می توان به آسانی با رسم یک نمودار از اطلاعات دید مانند شکل زیر: از آن جا که ارزش کوورایانس را بین هر دو بعد در مجموعه اطلاعات می توان حساب کرد این تکنیک اغلب برای پیدا کردن ارتباط بین بعدها در ابعاد بزرگ مجموعه اطلاعات که تجسم آن مشکل است استفاده می شود.
در نمونه های مستقل ، آزمون t از تقسیم تفاوت بین میانگین های نمونه بر برآوردی از انحراف معیار توزیع اختلافها ( که به عنوان خطای معیار اختلاف یاstandard error of difference شناخته می شود)به دست می آید.اگر واریانسهای نمونه دارای مقادیر مشابهی باشد ، معمولاً با برآورد ترکیبی (pooled estimate) واریانس ثابت جامعه کار می شود.
اما اگر واریانس ها برابر نباشند از برآورد ترکیبی استفاده نمی شود و یک آزمون با واریانس جداگانه (separate variance) انجام می شود .
اگر مقدار t در هر یک از دمهای توزیع نمونه گیری قرار بگیرد ، فرضیه صفر رد می شود.مقدار دقیق t که جهت معنی دار شدن لازم است به درجه آزادی(degrees of freedom) توزیع بستگی دارد که خود آن به حجم نمونه در مطالعه وابسته است.
اما معمولاً اگر قدر مطلق tبرابر یا بزرگتر از 2 باشد، معنی دار است،مگر اینکه حجم نمونه خیلی کوچک باشد.در هر حال باید از نمونه های خیلی کوچک پرهیز نمود ، زیرا آزمون مورد نظر توان لازم جهت رد کردنH0 را نخواهد داشت.(توان یا power یک آزمون آماری احتمال رد کردن H0 است به شرطی که صحیح نباشد.)مدل آزمون t این فرض را می کند که داده ها از توزیع های نرمال با واریانس برابر به دست آمده اند.شبیه سازی های رایانه ای نشان داده است که حتی اگر این فرضها تا حدودی مخدوش شده باشند کماکان می توان با اطمینان از آزمون t استفاده نمود،یه شرط آنکه حجم نمونه خیلی کم نباشد و دارای مقادیر پرت نبوده وحجم نمونه خیلی کم نباشدو دارای مقادیر پرت نبوده وحجم نمونه ها با هم برابر باشد(یاتقریباً برابر باشد) اگر بررسی اولیه داده ها بیانگر آن باشد که فرضهای مدل آزمون t به شدت مختل است .می توان از آزمونهای جایگزین استفاده نمود که از نوع آزمونهای ناپارامتری است و در منوی Nonparametric Tests از Analyze وجود دارد.آزمونهای ناپارامتری در باره توزیعهای جامعه و واریانس آن فرض خاصی نمی کنند.رویکرد دیگر (که به همان میزان موجب افت توان نمی شود) خارج کردن مقادیر پرت و به کار بردن آزمون t با مجموعه تفاوت انحراف معیار و واریانس اگر پس از محاسبه ی میانگین، آن را از تک تک داده ها کم کرده و به توان 2 برسانیم و سپس میانگین این داده ها را محاسبه کنیم، این میانگین ثانویه، واریانس داده های اوّلیه است: Var(X)= 1/N(∑(x-x )²) =S² اگر از فرمول فوق جذر گرفته شود، انحراف معیار حاصل می گردد: S.D(X)=√Var(X) =S همان طور که از فرمول محاسباتی بر می آید، محاسبه ی Var(X) آسان تر است؛ زیرا توان دوم هر عدد از ضرب عدد در خودش بدست می آید و دقیق است ولی جذر اعداد معمولاً تقریبی است و محاسبه ی آن دشوار است.
از سوی دیگر در آمار و احتمال پیشرفته در صورت نیاز گرفتن مشتق یا انتگرال از Var(X) ساده تر است.
مسئله ی دیگری که در هنگام استفاده از این دو پارامتر باید در نظر گرفت آن است که هنگامی که تفاوت داده ها از میانگین در فاصله ی (1و1-) باشد با انجام عمل توان رسانی این تفاوت کم تر می گردد که احتمال دارد از واقعیت دور گردد که در این حالت برای رفع این مشکل از جذر آن استفاده می کنیم.
موضوع دیگر در رابطه با واحد این دو پارامتر است که در Var با توان 2 ظاهر می گردد و از این رو مناسب استفاده در شاخص های نسبی نیست.
هم چنین برای استفاده از کاربرد دیگر شاخص های پراکندگی؛ یعنی، آدرس دهی داده ها نمی توان از Var استفاده کرد؛ زیرا، آدرس دهی از یک شاخص مرکزی و به کمک یک شاخص پراکندگی و به وسیله ی عمل جمع صورت می گیرد.
از این رو، بهترین نوع آدرس دهی توسط میانگین و واریانس باید صورت گیرد؛ چون، در محاسبه ی این دو پارامتر تمامی داده ها اثر دارند، امـّا چون در واریانس واحد از درجه ی دو است نمی توان آن را با میانگین جمع کرد، از این رو انحراف معیار مورد استفاده واقع می شود؛ مثلاً می گوییم:دو واحد انحراف معیار از میانگین بالا تر یا پایین تر داده ی x وجود دارد.
در حالت کلـّی برای هر توزیع داریم: (1 − 1/k2) × 100% (قضیه ی چپی شف) از داده ها در فاصله ای به مرکز میانگین و k تا انحراف معیار وجود دارد که درآن k تعداد واحد S از میانگین است.
در انجام برخی از تست ها نظیر تست T (T-test) از واریانس استفاده می گردد که البته این به خاطر خصوصیات ریاضیاتی آن است.
در تحلیل های داده ها نیز از واریانس و کوواریانس استفاده می گردد (ANOVA & ANCOVA) تا تحلیل آنان به واقعیت نزدیک تر باشد.
هم چنین برای محاسبه ی ضریب همبستگی(r) از S استفاده می گردد ولی برای محاسبه ی درصد آن از واریانس استفاده می شود.
از سوی دیگر، همان طور که از نمودار f(x)=S² و f(x)=S پیداست؛ سرعت تغییرات واریانس در همه نقاط به جز فاصله ی (1و1-) از انحراف معیار بیشتر بوده و نسبت به ضرب عدد نیز حسّاس تر می باشد(مگر وقتی عدد ضرب شده بین 1و1- باشد) تعریف میانگین میانگین یا متوسط نمونه ای مرکب از n اندازه x1، x2 ، ...
، xn ، عبارت است از خارج قسمت مجموع این اندازه ها بر n، میانگین را با نشان می دهند که در عملیات، به صورت زیر نوشته می شود: x´ = ∑ xi/n (به ازای i=0 تا n) همان طوریکه از مفهوم "متوسط" بر میآید، میانگین ، مرکز مجموعه دادهها را نمایش میدهد.
اگر نمودار نقطهای مجموعه دادهها را این طور تجسم کنیم که روی میلاه افقی نازکی ، گویهای هم اندازهای در محل دادهها قرار دارند، آنگاه ، میانگین نشان دهنده نقطهای است که این میله در آن نقطه به حال تعادل در میآید.
تعریف میانه نمونهای میانه نمونهای مرکب از n اندازه x1، x2 ، ...
، xn ، عبارت است از اندازه وسطی ، در صورتی که اندازهها را به ترتیب از کوچکترین به بزرگترین مقدار مرتب کرده باشیم.
اگر n فردی باشد، یک مقدار وسطی منحصر به فرد وجود دارد که میانه است.
اگر n زوج باشد در مقدار وسطی وجود دارند که متوسط آنها به عنوان میانه تعریف میشود.
اجمالا میتوان گفت که ، میانه مقداری است که دسته دادهها را به دو نیمه مساوی تقسیم میکند.
به عبارت دیگر ، 50% دادهها در زیر میانه و 50% در بالای میانه قرار میگیرند.
موارد استفاده از میانه و میانگین وجود معدودی مشاهده خیلی برزرگ یا خیلی کوچک ، در میانه تاثیر ندارد، در حالی که وجود اینگونه مقادیر فرین در میانگین اثر قابل ملاحظهای دارد.
به نظر میرسد برای توزیعهایی که خیلی نامتقارن هستند، میانه معیار معقولتری از گرایش به مرکز است تا میانگین.
به این دلیل در گزارشهای دولتی راجع به توزیع درآمد، به جای میانگین ، میانه درآمدها را ذکر میکنند.
وقتی توزیع خیلی نامتقارن نیست، میانگین به میانه ترجیح داده میشود و خیلی بیشتر از میانه بکار میرود، زیرا در روشهای استنباطی ، میانگین از لحاظ نظری دارای امتیازاتی است که میانه فاقد آنهاست