در این گزارش قصد داریم جهت بررسی روشهای بازشناسی آماری الگو ، دو مجموعه داده را معرفی و مورد استفاده قرار دهیم. دیتاست اول، عنوان INFO ON BUPA LIVER DISORDERS را دارد و وجود یا عدم وجود اختلالات کبد 345شخص را با استفاده از 6 خاصیت خون آنها نشان می دهد. لازم به ذکر است که در اثر مصرف نوشیدنیهای الکلی ،کبد انسان دچار تغییرات ظاهری و رفتاری زیانباری می گردد. دیتاست دوم تحت عنوان PIMA INDIANS DIABETES است که در آن نیز768 نفر بالای 21 سال مورد مطالعه قرار گرفته اند. بدین صورت که با استفاده از اندازه گیری 6 خاصیت در مشخصات ظاهری و خون این افراد، وجود یا عدم وجود بیماری دیابت در آنها مشخص گردیده است.
در ابتدا مشخصات هر دیتاست به طور مفصل شرح داده می شود و سپس مراحل و مراجع استفاده شده برای استخراج اطلاعات آماری و همچنین نتایج حاصل از بررسی جمعی این داده ها رابیان می کنیم. برای بکارگیری روشهای شناسایی آماری الگو در این مجموعه دادها، آنها را به دو بخش جهت آموزش و تست دسته بندی کننده، تقسیم می کنیم. برای بهینه کردن نتیجه حاصل باید پارامترهای آن در مرحله آموزش بدرستی انتخاب شوند. در پایان این گزارش نیز بر اساس اطلاعات آماری استخراج شده، نتیجه گیری کلی صورت می گیرد.
1. قسمت اول : مجموعه دادهBUFA
1.1 مجموعه داده:
مجموعه داده BUPA LIVER DISORDER توسط مرکز تحقیقات پزشکی bupa در سال1992 جمع آوری شده است.هدف آن بررسی و تشخیص اختلالات ایجاد شده در کبد بدن انسان می باشد که با استفاده از بررسی تعدادی از خواص خون شخص حاصل می شود. این اختلالات از مصرف بی رویه الکل ناشی می گردند.
جهت تحقق این امر نتایج حاصل از آزمایش خون 345 نفر انسان مذکر در قالب 6 ویژگی که شامل موارد ذیل است، در نظر گرفته شده است.