دانلود گزارش پیشنهاد مجموعه داده -بازشناسی آماری الگو

Word 25 MB 18320 16
مشخص نشده مشخص نشده کامپیوتر - IT

قیمت قدیم:۱۶,۰۰۰ تومان

قیمت: ۱۲,۸۰۰ تومان

دانلود فایل

بخشی از محتوا
وضعیت فهرست و منابع

در این گزارش قصد داریم جهت بررسی روشهای بازشناسی آماری الگو ، دو مجموعه داده را معرفی و مورد استفاده قرار دهیم.

دیتاست اول، عنوان INFO ON BUPA LIVER DISORDERS را دارد و وجود یا عدم وجود اختلالات کبد 345شخص را با استفاده از 6 خاصیت خون آنها نشان می دهد.

لازم به ذکر است که در اثر مصرف نوشیدنیهای الکلی ،کبد انسان دچار تغییرات ظاهری و رفتاری زیانباری می گردد.

دیتاست دوم تحت عنوان PIMA INDIANS DIABETES است که در آن نیز768 نفر بالای 21 سال مورد مطالعه قرار گرفته اند.

بدین صورت که با استفاده از اندازه گیری 6 خاصیت در مشخصات ظاهری و خون این افراد، وجود یا عدم وجود بیماری دیابت در آنها مشخص گردیده است.
در ابتدا مشخصات هر دیتاست به طور مفصل شرح داده می شود و سپس مراحل و مراجع استفاده شده برای استخراج اطلاعات آماری و همچنین نتایج حاصل از بررسی جمعی این داده ها رابیان می کنیم.

برای بکارگیری روشهای شناسایی آماری الگو در این مجموعه دادها، آنها را به دو بخش جهت آموزش و تست دسته بندی کننده، تقسیم می کنیم.

برای بهینه کردن نتیجه حاصل باید پارامترهای آن در مرحله آموزش بدرستی انتخاب شوند.

در پایان این گزارش نیز بر اساس اطلاعات آماری استخراج شده، نتیجه گیری کلی صورت می گیرد.
1.

قسمت اول : مجموعه دادهBUFA
1.1 مجموعه داده:
مجموعه داده BUPA LIVER DISORDER توسط مرکز تحقیقات پزشکی bupa در سال1992 جمع آوری شده است.هدف آن بررسی و تشخیص اختلالات ایجاد شده در کبد بدن انسان می باشد که با استفاده از بررسی تعدادی از خواص خون شخص حاصل می شود.

این اختلالات از مصرف بی رویه الکل ناشی می گردند.
جهت تحقق این امر نتایج حاصل از آزمایش خون 345 نفر انسان مذکر در قالب 6 ویژگی که شامل موارد ذیل است، در نظر گرفته شده است.
جهت تحقق این امر نتایج حاصل از آزمایش خون 345 نفر انسان مذکر در قالب 6 ویژگی که شامل موارد ذیل است، در نظر گرفته شده است.

لازم به ذکر است که در اثر مصرف زیاد مشروبات الکلی ظاهر و عملکرد کبد دچار تغییرات زیان آوری می شود.

این اختلالات کبد باعث کاهش یا افزایش 6 خاصیت فوق الذکر در خون می گردد.

هر رکورد در این مجموعه داده شامل اندازه این شش خاصیت طی آزمایش گرفته شده از خون اشخاص می باشد و همانطور که قبلا بیان شد تعداد رکوردها 345 عدد است.

می توان از روی مقدار این ویژگیها در خون تشخیص داد که کبد بدن شخص مذکور دچار تغییرات (ظاهری و رفتاری) شده است یا خیر.

بنابراین تمامی این رکوردها را می توان به دو دسته کلی تقسیم نمود.

کلاس یک نماینگر افراد سالم و کلاس دو نماینده افراد بیمار هستند.

از این تعداد نمونه 66 درصد (200 نمونه) از کلاس یک، 34 درصد (145 نمونه) از کلاس دو می باشد.

مجموعه داده های فوق از مخزن پایگاه داده UCI به نشانی اینترنتی ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders اخذ شده است.اطلاعات تمامی 345 رکورد به صورت کامل ثبت گردیده و هیچ مقدار نامعلوم و از دست رفته ای وجود ندارد.

جهت استفاده از دیتاست آن را به دو بخش، یکی برای آموزش و دیگری برای تست دسته بندی کننده تقسیم کردیم .مجموعه آموزش شامل260 نمونه می باشد که میتوان رکورد هایی از هر دو نوع کلاس را در آن یافت.

برای بهینه کردن نتیجه حاصل باید پارامترها در مرحله آموزش بدرستی انتخاب شوند.

85 رکورد باقیمانده نیزجهت مجموعه تست استفاده می شوند.

1.2خصوصیات آماری داده‌ها: نرم افزار استفاده شده جهت انجام تحلیلا ت آماری، matlab7 میباشد.

همچنین در ادامه این بررسی از جعبه ابزار مربوط به شناسیی آماری الگو(PR-Toolbox4) که در نرم افزار Matlab قرار دارد استفاده میکنیم.

همانطور که در قسمت پیشین عنوان شد مجموه داده BUFA شامل 345 رکورد و 6 ویژگی (Feature) است.

مقادیر این 6 ویژگی همگی از نوع پیوسته گزارش شده اند.

شکل زیر که توسط PR_Toolbox4 بدست آمده بیانگر نحوه توزیع این 345 رکورد بر اساس معیار feature1 و feature2 در دیتاست می باشد.

شکل 1-1 نتیجه حاصل از انجام محاسبات آماری بر روی ویژگیهای(features) دیتاست نیز در جداول زیر عنوان شده است: (برای سادگی،feature را با شماره آن مشخص میکنیم) شکل 2-1 در ادامه میزان وابستگی آماری ویژگی های دیتاست را بوسیله ماتریس کواریانس نمایش میدهیم.

شکل 3-1 هیستوگرام توزیع داده ها در فضای هر feature نیز در جدول زیر به تصویر کشیده شده است: شکل 4-1 در شکل 5-1(جدول زیر) نیزمی توان اندازه کواریانس بین ویژگیهای (features) دیتاست را به صورت شهودی بررسی کرد.

دقت کنید که نقاط به رنگ آبی مربوط به کلاس یک و نقاط به رنگ قرمز نیز مربوط به کلاس دوم می باشند.

شکل 5-1 در شکل 6-1 نحوه توزیع کلاس ها در فضای هر ویژگی با رنگهای جداگانه ترسیم شده است.

شکل 6-1 1.3 جمع بندی: با در نظر گرفتن مطالب بالا، شکل توزیع داده ها در فضای هر ویژگی (Feature) در اغلب موارد دارای چولگی به سمت چپ است.برای ویژگی های 1 و 2 میتوان تا حدودی توزیع نرمال را در نظر گرفت.

از شکل 5-1 و 6-1 نیز استنباط می شود که توزیع داده ها در دو کلاس برای 4 ویژگی دارای همپوشانی زیادی می باشد و این مسئله ممکن است باعث خطای دسته بندی کننده در مراحل بعدی شود.

مقدار کواریانس بین اعداد ویژگی های 3 و 4 ،و همچنین ویژگیهای 3و 5 نسبتا بالا است که این موضوع را میتوان از شکل 5-1 نیز استنباط کرد.

قسمت دوم : مجموعه دادهPIMA"" 2.1 مجموعه داده: در قسمت دوم این بررسی قصد داریم دیتاست دیگری را با عنوان " Pima Indians Diabetes Database "معرفی کنیم.

این دیتاست توسط موسسه ملی بیماریهای دیابتی و گوارشی در سال 1990 ایجاد شده است.

مجموعه داده فوق وجود بیماری دیابت را در افراد مؤنث بالای 21 سال بررسی می کند.

این داده ها شامل 768 رکورد است که در کل میتوان رکورد های مذکور را به دودسته تقسیم نمود.دسته اول که با کلاس شماره 0 مشخص شده اند مربوط به خوانم هایی است که بیماری دیابت ندارند و دسته دیگر که برچسب (label) کلاس آنها 1 گردیده مربوط به آن دسته از افراد مبتلا به بیماری دیابت می باشد.

در دیتاست 8 ویژگی جهت تشخیص این بیماری در افراد در نظر گرفته شده است.

تمام این 8 ویژگی(feature) به همراه توضیحات مختصری در مورد آنها در جدول زیر بیان می گردد.

دسته اول که فاقد بیماری هستند، 500 رکورد و دسته دیگر که بیماری دیابت دارند نیز 268 رکورد باقیمانده را شامل می شوند.

بنابراین از لحاظ آماری چگالی توزیع داده ها در کلاس صفر بیشتر از کلاس یک می باشد.

مجموعه داده های فوق از مخزن پایگاه داده UCI به نشانی اینترنتی ftp://ftp.ics.uci.edu/pub/machine-learning-databases/pima-indians-diabetes اخذ شده است.اطلاعات تمامی 768 رکورد به صورت کامل ثبت گردیده و هیچ مقدار نامعلوم وجود ندارد.

جهت استفاده از دیتاست آن را به دو بخش، یکی برای آموزش و دیگری برای تست دسته بندی کننده تقسیم کردیم.مجموع آموزش شامل 615 نمونه می باشد که میتوان رکورد هایی از هر دو نوع کلاس را در آن یافت.

برای بهینه کردن نتیجه حاصل باید پارامترها در مرحله آموزش بدرستی انتخاب شوند.153 رکورد باقیمانده نیزجهت مجموعه تست استفاده می شوند.

2.2 خصوصیات آماری داده‌ها: تحلیلات آماری با نرم افزار " Matlab7 "انجام شده است.همچنین در ادامه این بررسی از جعبه ابزار مربوط به شناسیی آماری الگو(PR-Toolbox4) که در نرم افزار Matlab قرار دارد استفاده میکنیم.

همانطور که در قسمت پیشین عنوان شد مجموه داده Pima Indians Diabetes شامل 768 رکورد شامل 8 ویژگی (Feature) می باشد.

مقادیر این8 ویژگی همگی از نوع پیوسته گزارش شده اند نتیجه حاصل از انجام محاسبات آماری بر روی ویژگیهای(features) دیتاست نیز در جداول زیر عنوان شده است: (برای سادگی،feature را با شماره آن مشخص میکنیم) شکل 2-2 در ادامه میزان وابستگی آماری ویژگی های دیتاست را بوسیله ماتریس کواریانس نمایش میدهیم.

شکل 3-2 هیستوگرام توزیع داده ها در فضای هر feature نیز در جدول زیر به تصویر کشیده شده است: شکل 4-2 در جدول زیر نیزمی توان اندازه کواریانس بین ویژگیهای (features) دیتاست را به صورت شهودی بررسی کرد.

شکل 5-2 در شکل 6-2 نحوه توزیع کلاس ها در فضای هر ویژگی با رنگهای جداگانه ترسیم شده است.

شکل 6-2 2.3 جمع‌بندی: با در نظر گرفتن مطالب بالا شکل توزیع داده ها در فضای هر ویژگی(Feature) در اغلب موارد دارای چولگی به سمت چپ است.برای ویژگی های 2 و3و6 میتوان تا حدودی توزیع نرمال را در نظر گرفت.

از شکل 5-2 و 6-2 نیز استنباط می شود که توزیع داده ها در دو کلاس برای 2 ویژگی سه و هفت دارای همپوشانی زیادی می باشد و این مسئله ممکن است باعث خطای دسته بندی کننده در مراحل بعدی شود.

ولی بر خلاف دیتاست قسمت قبلی این خطا به مراتب کمتر می باشد.

مقدار کواریانس بین اعداد ویژگی های 2 و 5 ، و همچنین ویژگیهای 4و 5 نسبتا بالا است که این موضوع را میتوان از شکل 5-1 نیز استنباط کرد.

مراجع: ISACC, JASONC." KERNEL METHODS AND COMPONENT ANALYSIS FOR PATTERN RECOGNITION", 2007, The UCI Machine Learning, UCI Machine Learning Repository Content Summary, Web Resource, [Online], "ftp://ftp.ics.uci.edu/pub/machine-learning-databases" Will JC, Strauss KF, Mendlein JM, Ballew C, White LL, Peter DG.

Diabetes mellitus among Navajo Indians: findings from the Navajo Health and Nutrition Survey.

J Nutrition 1997;127 (suppl):2106-13.

BUFA-Liver disorders Database, BUPA liver disorders, Web Resource,[Online], http://www.ailab.si/orange/doc/datasets/bupa.htm دانشگاه آزاد اسلامی‌واحد مشهد دانشکده فنی و مهندسی گروه هوش مصنوعی شماره ویژگینام ویژگی در datasetتوضیحات1mcvحجم متوسط کپسولی2alkphosمیزان آنزیم alkaline phosphotase3sgptمیزان آنزیم alanine aminotransferase (ALT)4sgotمیزان آنزیم aspartate aminotransferase (AST)5gammagt(gamma-G) gamma-glutamyl transpeptidase میزان آنزیم6drinksمقدار مصرف روزانه مشروب الکلی : 1/2 pint (250 سی سی) 654321شماره feature3.455138.28424.643530.405869.869690.1594مقدار میانگین11154010338033619.8مقدار واریانس3.337839.254610.064519.512318.34774.4481مقدار انحراف از معیار Feature6Feature5Feature4Feature3Feature2Feature1Covariance4.638.88.412.83.619.8Feature16.295.92727.3336.63.6Feature213.5385.6145.3380.727.312.8Feature39.4208101145278.4Feature444.71540208385.695.938.8Feature511.144.79.413.56.24.6Feature6 Feature 1Feature 2Feature 3Feature 4Feature 5Feature 6 Y=feature 2 , X=feature 1Y=feature 3 , X=feature 1Y=feature 5 , X=feature 6Y=feature 5 , X=feature 2Y=feature 1 , X=feature 6Y=feature 4 , X=feature 3 شماره ویژگینام ویژگی در datasetتوضیحات1Number of times pregnantتعداد بارداری2Plasma glucoseغلظت گلوکز پلاسما خون (تست تحمل گلوکز پس از 2 ساعت از مصرف قند.)3Diastolic blood pressureفشار خون دیاستولیک4Triceps skin fold thicknessضخامن چین پوستی عضله سه سر بر حسب میلی متر52-Hour serum insulinسرم انسلین 2 ساعته (mu u/ml)6Body mass indexضریب توده عضلانی بدن7Diabetes pedigreeسابفه دیابت خانوادگی8Ageسن شخص 87654321شماره feature33.240.4731.9979.7920.5369.1120.853.84مقدار میانگین13806213281254375102211مقدار واریانس11.760.337.8811515.9519.3531.973.36مقدار انحراف از معیار Feature8Feature7Feature6Feature5Feature4Feature3Feature2Feature1Covariance220029-4-91411Feature19915612212994102214Feature25504319864375949Feature321-14980325464294-Feature457-718913281803198122129-Feature530621804943560Feature600071010Feature71380357-21-559922Feature8 Feature 1Feature 2Feature 3Feature 4Feature 5Feature 6Feature 7Feature 8 Y=feature 2 , X=feature 1Y=feature 2 , X=feature 4Y=feature 5 , X=feature 6Y=feature 5 , X=feature 4

کلمات کلیدی: آماری الگو - بازشناسی آماری الگو - پیشنهاد مجموعه داده - مجموعه داده

دانلود ‫پروژه فازی - الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

۴۲

خوشه بندي روشي است که داده هاي يک مجموعه داده را به گروه يا خوشه تقسيم مي کند . از مرسوم ترين روش هاي خوشه بندي،الگوريتم هاي خوشه بندي k-Means وfuzzy k-Means مي باشند.اين دو الگوريتم فقط روي داده هاي عددي عمل مي کنند و به منظور رفع اين محدوديت، الگو

دانلود مقاله طراحی سیستمهای مدرن اطلاعاتی، بازشناسی خودکار الگوها

۶۶

پيدايش علوم و فنون جديد، جوامع بشري را با شکلهاي مختلفي از اطلاعات روبرو نموده است. سطح توسعه يک جامعه را مي توان با مقدار اطلاعات و دانش توليد شده در آن ارزيابي کرد. توليد فزاينده اطلاعات به شکلهاي مختلف صورت مي گيرد و با درجات متفاوتي از پيچيدگي ه

دانلود مقاله کاربرد الگوریتم ژنتیکی سازگار یافته برای مسائل دینامیکی

۲۴

خلاصه : اين مقاله يک الگوريتم ژنتيکي سازگار (AGA) را همراه با تابع لياقت ديناميکي، براي مسائل چند هدفه (MOPs) در محيط ديناميکي تشريح مي کند. به منظور ديدن اجراي الگوريتم، اين روش براي دو نوع از مسائل MOPs بکار گرفته شده است. اولا اين روش براي پيدا

دانلود مقاله بهبود شناسایی آرم در سند های تصویری مبتنی بر الگوریتم ژنتیک

چکیده -تشخیص آرم یکی از راه های تشخیص منابع اسنادو اطلاعاتی درباره یک سند می باشد.در این مقاله شناسایی و تشخیص آرم ها در تصاویر متنی بیان می شود.بدین صورت که ابتدا تصاویر به سگمنت هایی تقسیم شده ، توسط فاز تشخیص آرم، برای هر سگمنت ویژگی هایی بر پایه آمار اولیه در مورد مؤلفه های پیکسل های سیاه درون هر بخش محاسبه می شود.با استفاده از این ویژگی ها، شبکه عصبی تکاملی بر پایه الگوریتم ...

دانلود روش تحقیق بررسی پایگاه داده در محیط نرم‌افزارهای ACCESS , SQL

۱۲۴

مروری بر SQL تاریخچه SQL از لابراتوار IBM در سان خوزه کالیفرنیا شروع می‌شود. جایی که SQL در اواخر دهه 1970 میلادی شکل گرفت. کلمه SQL برگرفته از حروف اول کلمات Structuted Query Language ساخته شده و اغلب اوقات اشاره به 'sequel' می‌‍‌کند. این زبان ابتدا برای محصول DB2 شرکت IBM (یک سیستم مدیریت پایگاه داده‌ ای رابطه‌ای یا RDBMS که امروزه نیز برای بعضی محیط‌ها فروخته می‌شود، طراحی ...

دانلود مقاله پیشنهاد روشی برای بودجه‌ ریزی عملیاتی

۵۰

1-مقدمه بودجه‌ ریزی عملیاتی عوامل "صرفه‌ جویی" و "اثر بخشی" را به ابعاد سنتی بودجه‌ریزی اضافه می‌کند. نظام بودجه‌ریزی عملیاتی بین "کارآیی" و "اثربخشی" تمایر قائل می‌شود. در"کارآیی" استفاده مفید از منابع مورد نظر است، در حالیکه "اثربخشی" با عملکرد مرتبط است. در بودجه‌ریزی عملیاتی طبقه‌بندی عملیات به‌نحوی است که هدفها شفافتر بیان می‌شوند، ارزیابی بودجه سهل‌تر بوده و در روش ...

دانلود مقاله روشی برای کنترل کیفیت کامپیوتری ، بر اساس سنجش مختصات سه بعدی

۲۰

اغلب لازم است که کيفيت محصولات توليدي ، تعيين شود. اين مقاله ، يک روش کنترل کيفيت کامپيوتري ( روش CAQ ) را براي مقايسه موارد توليدي با داده‌هاي مرجع ، که از الگوهاي اساسي CAD بدست مي آيند ، نشان مي‌دهد. در ابتدا ، يک نظر کلي در مورد پيشرفتهاي کنني د

دانلود مقاله خصوصی سازی3

۱۱۴

چکیده در ادامه این پژوهش، پژوهشگر بر آن است که به توضیح و تفسیر زمینه های خصوصی سازی، تعاریف و نظریه ها پرداخته و پس از آن اهداف به کارگیری چنین برنامه ای را تشریح کند. خصوصی سازی هم مثل دیگر برنامه های اجتماعی – اقتصادی به روش و طرق گوناگون انجام می شود و این دلایل اجرای طرح است که در هر جامعه ای روش به کارگیری و پیاده سازی آن را تعیین می کند. در ادامه پژوهشگر با نظر به آنچه تا ...

دانلود مقاله تجزیه و تحلیل مسائل پزشکی

۲۶

چکیده رساله: از شاخص های توسعه یافتگی هر جامعه آماری مربوط به بهداشت و سلامت می باشد، که در راس آن آمارهایی چون مرگ و میرکودکان زیر1سال، مرگ میر مادران باردار، سن امید به زندگی و... است. در کشور ما علی رغم آمارغیر قابل اعتماد که از سوی مسئولین ارائه می گردد تا رسیدن به حد مطلوب بهداشت و سلامت فاصله بسیار است. که اکنون با افزایش روز افزون جمعیت در سالهای اخیر و تجمع مردم بخصوص در ...

دانلود تحقیق عمران و معماری

۶۷

RSS 2.0 عمران-معماري خاکبرداري آغاز هر کار ساختماني با خاکبرداري شروع ميشود . لذا آشنايي با انواع خاک براي افراد الزامي است. الف) خاک دستي: گاهي نخاله هاي ساختماني و يا خاکهاي بلا استفاده در

ثبت سفارش

تعداد

عنوان محصول

قیمت