- مقدمه:
در این نوشتار قصد داریم به معرفی آنالیز اجزا اصلی (Principal components analysis) به پردازیم. آنالیز اجزا اصلی (pca) یک تکنیک مفید آماری است که کاربرد آن در زمینه های از قبیل : تشخیص چهره،فشرده سازی تصویر و یک تکنیک رایج برای شناسایی یک نمونه در داده های از بعد بالا است.
این تبدیل که با اسامی دیگری چون هتلینگ(Hostelling Transform)، کارهانن-لو(Karhunen-Live Transform(KLT)) و بردار های ویژه نیز شناخته می شود،تبدیل بهینه در کار های فشرده سازی و کاهش بعد است و خطای میانگین مربعات حاصل از فشرده سازی را کمینه می کند. هر چند این تبدیل به علت وابسته بودن به داده ورودی، جای خود را در الگوریتم های کاربردی و عملی، به تبدیل گسسته کسینوسی(Discret Cosine Transform(DCT)) داده است اما در صورت کافی بودن داده ورودی می تواند تبدیل بهینه را استخراج نماید.
آنالیز اجزای اصلی یک روش اختیاری چند منغیری است. اگر ما در جایی مجبور هستیم مهم ترین متغیر را یا یک تعداد محدودی از متغیر ها را دریک مجموعه انتخاب کنیم از آنالیز اجزای اصلی کمک می گیریم .
آنالیز اجزای اصلی می تواند هم چنین برای پیدا کردن سیگنال ها در اطلاعات نویزدار به کار رود.
قبل از این که از آنالیز اجزا اصلی توصیفی به دست آوریم ابتدا به معرفی مفاهیمی ریاضی که در آنالیز اجزا اصلی استفاده می شود می پردازیم.
این قسمت انحراف معیار، کوورایانس ، بردارهای مشخصه و مقادیر ویژه را پوشش می دهد.این دور نما دانشی قابل فهم از قسمت های آنالیز اجزا اصلی فراهم می آورد.
در این نوشتار مثال های وجود دارد که از طریق آن معنی و مفهوم بحث را روشن می سازد.
2- ریاضیات زمینه(لازم):
در این قسمت تلاش می کند که مهارت های لازم در ریاضیات پایه مورد نیاز در آنالیز اجزا اصلی بدست آوریم.
به خاطر سپردن طرز کار صحیح تکنیک ریاضی نسبت به فهمیدن دلایل اهمیت کمتری دارد. زیرا که یک تکنیک ممکن استفاده شود و نتیجه عملی به ما در مورد داده نهایی بگوید.
در این قسمت ابتدا به بخشی از آمار که در توزیع اندازه یا چگونگی پراکندگی داده ها است توجه می کنیم و در بخش دیگر به ماتریس جبری، مقادیر ویژه و بردار های مشخصه که مهمترین ویژگی یک ماتریس که اساس آنالیز اجزا اصلی توجه می کنیم.
2-1 آمار:
در سراسر بحث آماری ما با مجموعه نسبتا بزرگی از داده ها سر و کار داریم و باید ارتباط (وابستگی) بین مجموعه با نقاط خاص در آن مجموعه داده را تحلیل کنیم. اما ما قصد داریم در مجموعه داده ها توجه کنیم به تعداد کمی از اطلاعات و نتیجه ای که درباره این مجموعه داده ها به ما می دهد.
2-1-1 انحراف معیار استاندارد :
برای فهمیدن انحراف معیار به یک مجموعه داده احتیاج داریم. آمارشناسان معمولا علاقمند به نمونه گیری از جامعه هستند. برای استفاده کردن از روش های نمونه گیری به عنوان مثال جامعه تمام مردم یک کشور است. در حالی که یک نمونه یک زیر مجموعه از جامعه است که آمارشناسان اندازه می گیرند.
مطلب مهم دیگر درباره آمار اگر از سراسر جامعه استفاده می کنید این است که فقط با اندازه گیری یک نمونه از جامعه شما می توانید با اندازه گیری احتمال(سنجش احتمال) کار کنید.
در این بخش آماری قصد داریم فرض کنیم که اطلاعات ما نمونه ای از جامعه است.
در اینجا یک مثال وجود دارد:
X = [1 2 4 6 12 15 25 45 68 67 65 98]
از علامت Xبرای اشاره به مجموعه اعداد استفاده می کنیم.اگر به یک عدد خاص در مجموعه داده ها بخواهیم اشاره کنیم از یک زیر نویس بر روی علامت X استفاده کنیم که یک عدد خاص را نشان می دهد.
تعدادی مطلب درباره یک مجموعه داده است که ما می توانیم حساب کنیم. برای مثال ما میانگین نمونه ها را می توانیم حساب کنیم. چون با مفهوم میانگین نمونه ای آشنا هستیم فقط فرمول را ارائه می کنیم: