دانلود تحقیق داده کاوی

Word 40 KB 3207 19
مشخص نشده مشخص نشده کامپیوتر - IT
قیمت قدیم:۱۶,۰۰۰ تومان
قیمت: ۱۲,۸۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • داده کاوی مقدمه: جهان پیرامون ما سرشار از داده ها و اطلاعات گوناگون می‌باشد.

    برای پیش بینی گرایشات و جریان های آتی و به منظور اتخاذ تصمیم گیری بهتر در زمینه علوم، تکنولوژی ، صنعت، بازار وغیره.

    انسان همواره با اشتیاقی حریصانه به دنبال کشف دانش از این موداب داده ها بوده است.

    قدیمی ترین دست نوشت ها کشف شده بر روی لوح های گلی مربوط به چهار قرن قبل از میلاد مسیح می‌باشد.

    با ساخت کاغذ داده های فراوانی بر روی هزاران جلد کتاب وسایر مستندات دیگر وغیره شد.

    توامروزه نیز با افزایش روز افزون کاربرد کامپیوتر ها حجم عظیمی از داده ها دیسک های سخت را به صورت اطلاعات دیجیتالی پر کرده اند.

    با دراختیار داشتن حجم عظیم داده ها مساله اصلی چگونگی یا فتن جمع‌آوری و به کارگیری روش هایی است که بتوان آنها را در کشف دانش از داده ها و به کارگیری دانش کشف شده در موارد مختلف به کار گرفت.

    اگر چه در دهه های اخیر زمینه جدید با عنوان داده کاوی به رواج یافته است ولی عملکردها و وظایف این علم مثل دسته بندی و جداسازی، از سالها پیش وجودداشته و به کار گرفته می شده اند.

    با توجه به اینکه هدف داده کاوی کشف الگوهای ناشناخته از داده ها می‌باشد روش های این علم از آموزش ماشین،هوش مصنوعی، آمار وغیره مشتق شده اند.

    با گسترش این علم روش های داده کاوی در زمینه هایی خارج از علوم کامپیوتر وهوش مصنوعی همچون دنیای تجارت وخطوط مونتا کارخانه ها نیز به کار گرفته شد.

    بدین ترتیب قابلیت های داده کاوی در زمینه هایی چون افزایش رقابت در بازار تجاری تشخیص کلاه برداری، تشخیص بیماریها با توجه به مدارک پزشکی وغیره نیز مورد آزمایش قرار گرفت و به اثبات رسید.

    معمولا در یک سیستم داده کاوی قابلیت هایی به منظور جمع آوری ذخیره سازی دسترسی پردازش و نهایتا توصیف ونمایش مجموعه های داده ای در نظر گرفته شود.

    جنبه های مختلف داده کاوی را میتوان به صورت مجزا مورد بررسی قراردارد.

    اگر چه جمع آوری وذخیره سازی اطلاعات در داده کاوی فوقالعاده با اهمیت می باشند ولی گاها این دو مورد را جز وظایف داده کاوی به شمار نمی آورد.

    در این میان افزونگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها کاوی فوق العاده با اهمیت می باشند ولی گاها این دو مورد جزء وظایف داده کاوی به شمار نمی آورد.

    در این میان افزودگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها وهمچنین قالب های ناسازگار مجموعه های داده ای جمع آوری شده را میتوان از جمله عواملی برشمرد که روند داده کاوی را با مشکل مواجه می کنند وحتی ممکن است باعث به وجود‌آمدن مسیرهای جستجوی گمراه کننده یا پایین آوردن کیفیت نتایج داده کاوی شوند.

    این مسائل وقتی بروز می دهند که افرادی که وظایف جمع آوری وپردازش کاویدن اطلاعات را بر عهده دارنددر یک گروه وکنار هم کارنکننده که در بسیاری از موارد راههای جمع آوری شده از ابتدا به منظور داده کاوی فراهم نشده اند.

    داده کاوی اصول وروش کار: عملیات داده کاوی را به صورت های مختلفی می توان دسته بندی کرد.در این متن ما به بررسی روش کار و روندعملیات در داده کاوی می پردازیم ودسته بندی این عملیات را به صورت پیش پردازش داده ها مدل سازی داده کاوی وتوصیف دانش مورد مطالعه قرار میدهیم شکل 1 عملیات پیش پردازش داده ها را میتوان شامل حذف نوفد انتخاب مشخصه ها، افراز داده ها، تبدیل داده ها، الحاق داده ها، پردازش داده های مفقود کاهش اندازه داده وغیره در نظر گرفت.

    در ادامه به بررسی بخش های مختلف یک سیستم داده کاوی می پردازیم.

    کاهش اندازه داده ها: کاهش اندازه داده ها میتواند باعث کاهش فضای جستجوی مفروض کاهش در جمع آوری داده ها هزینه های ذخیره سازی شود.

    همچنین میتواند نتایجی را چون افزایش کارایی داده کاوی وساده سازی نتایج آن را به دنبال داشته باشد.

    یکی از روشهای کاهش اندازه داده ها استخراج مشخصه می‌باشد که در این روش مشخصه های جدید از مشخصه های اصلی موجود استخراج شده تا با به کاری گیری این مشخصه های جدید توان وکارایی محاسباتی وهمچنین دقت دسته بندی را افزایش داد.روش های استخراج مشخصه ها معمولا با تبدیل های غیرخطی سروکار دارند.

    از این میان میتوان به روش هایی چون شبکه های عصبی تا کردن تبدیل مختصات پیمانه ای و انتشار غیر خطی اشاره کرد.

    روش های مبتنی بر تبدیل هیا غیرخطی در ترتیب خوب عمل می کنند و همچنین در مواجهه با مسائل غیرخطی عملیاتی قدرتمند هستند این روش ها ممکن است عوارضی جانبی غیرقابل پیش بینی وناخواسته ای در داده ها به وجود آورند.

    همچنین این روش ها معمولا برگشت ناپذیر بوده و دانش آموخته شده به وسیله اعمال یکی از روش های مبتنی بر تبدیل های غیرخطی در یک فضای مشخصه قابل تبدیل به فضای مشخصه دیگر نمی باشد.

    از دیگر روش های معمول برای استخراج مشخصه ها میتوان به تحلیل تکنیکی خطی وتحلیل مولفه های اصلی اشاره کرد.در استخراج مشخصه ها معانی مشخصه های جدید به سختی قابل تفسیر می باشند.

    یکی دیگر از روشهای کاهش اندازه داده ها انتخاب مشخصه ها می‌باشد.

    در این روش زیر مجموعه ای از مشخصه های اصلی را به عنوان مشخصه های جدید انتخاب می کنیم که در سیستم های استقرایی مثل سیستم دسته بندی به خوبی عمل می‌کند معمولا جستجوبرای زیر مجموعه ای بهینه از مشخصه ها مشکل می‌باشد وحتی برای بسیاری از مسائل انتخاب مشخصه ها ثابت شده است.

    که Np-hard هستند روش های انتخاب مشخصه ها به طور وسیعی مورد مطالعه قرار گرفته اند زیرا مشخصه های انتخاب شده از مشخصه های اصی در مقایسه با مشخصه های جدیدی که از مجموعه مشخصه های اصلی استخراج شده اند به سادگی قابل تفسیر می باشند در موارد بسیاری چون دسته بندی مستندات داده کاری، بازشناسی اجسام وپردازش تصویر برای پیش پردازش داده ها از روش های انتخاب مشخصه ها کمک گرفته می شود.

    برخی از روشهای انتخاب مشخصه ها شامل دو بخش می شوند: یک معیار رتبه بندی :منظور رده بندی اهمیت هر مشخصه یا زیر مجموعه ای از مشخصه ها و بخش دیگر شامل یک الگوریتم جستجو به عنوان مثال یک الگوریتم جستجوی پیش سویا پس شو.

    به روش های جستجویی که در آنها مشخصه ها به صورت پشت سرهم اضافه (پایین به بالا) و یا حذف (بالا به پایین) می شوند تا جائیکه شرط خاتمه ارضا شود روش های دنباله ای نیز می گویند.

    به عنوان مثال انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای –الگوریتم های اولیه باشد.

    انتخاب پیش سوی دنباله ای روشی پایین به بالا می‌باشد که در این روش مشخصه های که در یک سری معیار ها صدق می‌کند.

    به زیر مجموعه مشخصه های انتخاب شده اضافه می شود واین کار تا جایی ادامه می یابد که تعداد زیرمجموعه های انتخاب شده به برسد.

    در روش انتخاب پس سوی دنباله ای که روشی بالا به پایین می‌باشد مشخصه هایی یکی از مجموعه مشخصه ها حذف میشوند تا جایی که تعداد مشخصه های حذف شده به n-d برسد.

    در هر دو الگوریتم بالا انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای تعداد زیر مجموعه های مشخصه هایی که باید مورد بررسی قرار بگیرند برابر خواهد بود با به روش های جستجویی که در آنها مشخصه ها به صورت پشت سرهم اضافه (پایین به بالا) و یا حذف (بالا به پایین) می شوند تا جائیکه شرط خاتمه ارضا شود روش های دنباله ای نیز می گویند.

    در هر دو الگوریتم بالا انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای تعداد زیر مجموعه های مشخصه هایی که باید مورد بررسی قرار بگیرند برابر خواهد بود با به هر حال بارمحاسباتی روش انتخاب پس سوی دنباله ای سنگین تر از روش انتخاب پیش سوی دنباله ای می‌باشد در حالیکه ابعاد زیر مجموعه های مشخصه هایی که در روش انتخاب پس سوی دنباله ای مورد بررسی قرار می گیرند بزرگتر و یا مساوی خواهد بود.

    به عنوان مثال در روش انتخاب پس سوی دنباله ای در ابتدا همه زیر مجموعه های مشخصه ها با ابعادمورد بررسی قرار می گیرند در حالیکه ابعاد زیر مجموعه های مشخصه ها در روش انتخاب پیش سوی دنباله ای حداکثر خواهد بود.

    روش های زیادی برای انتخاب مشخصه هی بر مبنای روش های انتخاب پیش سو وپس سوی دنباله ای توسعه یافته اند.همچنین توابع محک مختلفی برای حذف و یا انتخاب یک زیرمجموعه از مشخصه ها ازمجموعه مشخصه های انتخاب شده مورد بررسی قرار گرفته اند.

    با رتبه بندی میزان اهمیت مشخصه ها در دسته های مجزا فقط زیرمجموعه ازمشخصه ها به منظور انتخاب زیرمجموعه نهایی مورد بررسی قرار خواهد گرفت.

    رتبه بندی اهمیت مشخصه ها در دسته های مجزا فقط زیر مجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرارخواهد گرفت.

    رتبه بندی اهمیت مشخصه ها به صورت مجزا فقط زیرمجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرار خواهد گرفت.

    رتبه بندی اهمیت مشخصه ها به صورت مجزا در مقایسه با ارزیابی همه ترکیب های مشخصه های میتواند موجب کاهش هزینه محاسباتی شود اگر چه در این روش ممکن است ترکیب های بهتر مشخصه ها را از دست دهیم.

    بنابرین هنگامی که هزینه محاسباتی به اندازه ای سنگین باشد که متحمل شدن این هزینه سخت یا غیرممکن باشد انتخاب مشخصه ها بر مبنای رتبه بندی اهمیت مشخصه ها به صورت مجزا ترجیح داده میشود.

    به کمک یک معیار رتبه بندی آنتروپی مشخصه ها میتوان مشخصه ها یکی یکی از مجموعه اصلی آنها حذف کرد.

    بدین ترتیب فقط زیرمجموعه از مشخصه ها به منظور انتخاب یک زیر مجموعه از آنها مورد بررسی قرار میگیرندکه این روش دسته بندی با دقت بالا را نتیجه خواهد داد.

    والبته در این حالت لازم نیست که پیشاپیش تعداد مشخصه هایی راکه قرار است انتخاب شوند دانست.

    در این روش میزان آنتروپی مشخصه ها برای رتبه بندی اهمیت آنها مورد استفاده قرارمی گیرند.

    اگر بخواهیم مشخصه هایی افزوند ویا نامربوط را تشخیص دهیم باید از اطلاعات نشان دسته ها استفاده کنیم.

    این مساله ما را بر آن می دارد که برای انتخاب مشخصه ها از اطلاعات نشان دسته ها استفاده کنیم که ممکن است به نتایج بهتری در انتخاب مشخصه ها منتهی شود مثلا مجموعه کوچک تری از مشخصه ها با قابلیت دسته بندی با دقتی بالاتر.

    از الگوریتم های ژنتیکی به طور وسیعی در انتخاب مشخصه ها استفاده می شود.

    در روش انتخاب مشخصه ها به کمک الگوریتم های ژنتیکی زیر مجموعه ای از مشخصه ها به صورت دنباله دورویی با طول طول زیر مجموعه مشخصه ها نشان داده می شود.

    یا یک در مکان ام نشان دهنده فقدان و یا حضور مشخصه در زیر مجموعه مشخصه ها می‌باشد.

    اغلب الگوریتم های انتخاب مشخصه های یک زیر مجمعه عمومی از مشخص ها را مشخصه ای مستقل از دسته برای همه دسته ها انتخاب می کنند.

    در حالیکه یک مشخصه ممکن است قابلیت های تمیز دهنده مختلفی برای تفکیک دسته ها از یکدیگر داشته باشد.

    برای تفکیک الگوهای یک دسته خاص از الگوهای دیگر یک مجموعه داده چند دسته ای را میتوان به صورت زیر مجموعه داده ودو دسته ای در نظر گرفت.

    به طوریکه همه دسته های دیگر را به عنوان یک دسته در مقابل دسته فعلی در حال پردازش مورد بحث قرار دهیم.

    به طور مثال اگر مجموعه داده ای مربوط به اطلاعات تعدادی شتر مرغ، طوطی و ادرک داشته باشیم و اطلاعات مربوط به سه گونه پرنده شامل وزن، رنگ پر(چند رنگ یا تک رنگ) حالت منقار، توانایی شناکردن، توانایی پرواز وغیره باشند با توجه به خصوصیات هر پرنده مشخصه وزن،برای جداکردن شترمرغ از بقیه پرنده ها کافی می‌باشد و با مشخصه رنگ میتوان طوطی را از پرنده های دیگر جدا کرد و نهایتا مشخصه قابلیت شنا کردن اردک را از سایر پرندگان موردبحث متمایز می سازد.بنابراین زیر مجموعه ای از مشخصه های مستقل برای هر سه نوع پرنده کمک انتخاب مشخصه های وابسته به دسته که هر دسته را از دسته های دیگر مجزا کننددر مقایسه با استفاده از زیر مجموعه مشخصه های عمومی مطلوب تر خواهد بود.

    بدین ترتیب خصوصیات منحصر به فرد هر دسته به کمک مشخصه های وابسته به دسته برجسته خواهند شد.

    در انتخاب مشخصه های وابسته به دسته نیز میتوان از روش های استخراج قوانین بهره جست در حالیکه ابعاد کوچک زیر مجموعه مشخصه های انتخاب شده ما را به قوانین مختصر ثری میرساند.

    دسته بندی وگروه بندی دسته بندی و گروه بندی دو مقوله مجزا در داده کاری می باشند که البته رابطه بسیار نزدیکی به هم دارند.

    یک دسته مجموعه از داده های نمونه می‌باشد ک دارای شباهت ها و یا وابستگی هایی می باشند و به همه نمونه های این دسته یک نشان دسته متعلق می گیرد که آنها را ازنمونه های کلاس هیا دیگر مجزا می‌کند.

    یک گروه مجموعه ای از نمونه هایی است که دارای شباهت محلی می باشند.

    گروه ها معمولا به منظور دسته بندی آتی نمونه ها در طبقات مرتبط بزرگتر و بامعنی ساخته میشود.

    با داشتن مجموعه ای از داده ها با نشان های دسته ای تحلیل گران داده ابزارهای دسته بندی را به صورت پیش گوهایی برای نمونه های ناشناخته آتی می سازند.

    در ابتدا یک مدل دسته بندی بر مبنای داده های موجودشکل می گیرد وسپس دسته مرتبط با نمونه های جدید توسط مدل آموزش یافته پیش بینی می شود.

    به عنوان مثال در بانک ها با جمع‌آوری اطلاعات مربوط به اشخاص وسابقه اعتباری آنها مدلی می سازد که برای دسته بندی درخواست اعتبارات جدید در دسته های آعتبار کم ریسک با ریسک متوسط و با ریسک زیاد استفاده می شود.

    در حالت های دیگر فقط با اطلاعات شخصی مشتری های واجد شرایط مثل سن، تحصیلات ومیزان درآمد ، داده کاوها از روش های گروه بندی برای ساختن گروه های بزرگتری از گروه های موجود با توجه به برخی شباهت ها استفاده می کنند و سپس به مشتری ها بر چسب های سطح اعتبار پایین متوسط و بالا را برای فروش های بعدی اختصاص می دهند.

    سپس به مشتری ها بر چسب های سطح اعتبار پایین متوسط و بالا را برای فروش های بعدی اختصاص می دهند.

    به طور کلی میتوان گروه بندی را برای کار با داده های بدون نشان دسته به کار برد.

    برخی از روش های دسته بندی در ابتدا داده ها را به گروه های کوچکی تقسیم کرده و سپس آنها را برای دسته بندی به کار می برند.

    مثل شبکه های عصبی RBF استخراج قواعد: استخراج قواعد سعی به آن دارد که داده ها ها را به صورتی ارائه نماید که تفسیر آنها قابل پی گیری بوده و همچنین بتوان تصمیم هایی مبتنی بر دانش مستتر در داده ها اتخاذ نموده مشتری های داده کاوی انتظار دارند که توضیحات ساده ای ازقبیل اینکه چرا نتایجی قطعی برای دسته بندی وجود دارد در یک پایگاه داده حجیم چه می گذرد وچه مشخصه هایی در نتایج داده کاوی به صورت بارز تاثیر گذارند برای آنها فراهم شود.

    به عنوان مثال توصیف مختصری از رفتار بازار برای اتخاذ تصمیم در سرمایه گذاری مفید می‌باشد.

    یک ابزار دسته بندی از داده های آموزشی یاد می گیرد و دانش آموخته شده را در پارامترهای خود(مثلا وزنها در یک شبکه عصبی که وظیفه دسته بندی را دارد) ذخیره می‌کند.

    به هر حال تفسیر دانش در یک قالب قابل فهم به کمک پارامترهای یک ابزار دسته بندی کار مشکی می‌باشد.

    از این رو استخراج قواعدی به صورت اگرآنگاه برای ارائه اطلاعات ارزشمند در داده ها مطلوب می باشند.

    استخراج قواعد را میتوان به دو گونه اصلی تقسیم کرد.یکی از این دو گونه به رابطه بین حسنات کیفی ورودی نشان دسته های خروجی ومجموعه داده ای نشان دار وابسته است.

    ودیگری جستجوی قواع پیوندی می‌باشد که روابط میان صفات کیفی موجود در مجموعه های داده ای که ممکن است نشان دسته ای نداشته باشد را استخراج می‌کند.روش های استخراج قواعد پیوندی معمولا برای کشف روابط میان اقلام در داده های معامله ای استفاده میشود.

    یک قاعده پیوندی به صورت بیان می شود بلک درمجموعه از اقلام هستند.

    بیانگر این استکه اگر عملیات شامل باشد آنگاه این عملیات شامل هم خواهد بود که در اینجا مجموعه داده های عملیات می‌باشد.همچنین یک پارامتر اطمینان که احتمال مشروط می‌باشد برای سنجش دقت قاعده به کار می رود.

    جستجوی قواعد پیوندی را میتوان برای تجزیه وتحلیل معاملات یک سوپر مارکت به کار برد به عنوان مثال یک مشتری که کوه خریداری می‌کند با یک احتمال معیین نان هم خواهد خرید بدین ترتیب برای افزایش فروش با توجه به این قاعده پیوندی کشف شده می توان این دو قلم را در مجاورت یکدیگر قرا ردارد.

    معمولا استخراج قواعد پیوندی را میتوان به عنوان دسته اول استخراج قواعد که مبتنی بر دسته اول استخراج قواعد که مبتنی بر دسته بندی می باشند مورد بررسی قرار دارد.

    به عنوان مثال اگر وظیفه یک قاعده پیوندی تشخیص اقلامی باشدکه مستعد خرید به همراه یک مجموعه اقلام خاص مثل می‌باشد مجموعه اقلام را میتوان به عنوان نشان دسته به کار برد.

    اقلام دیگر درعملیات به عنوان صفات کیفی موردبررسی قرار میگیرند.

    اگر در اتفاق بیفتد نشان دسته برابر در غیر این صورت خواهد شد.

    سپس میتوانیم اقلام درگیر بارخداد وهمچنین اقلام درگیر با عدم رخداد را شناسایی کنیم.قواعد پیوندی را میتوان از طریق دسته بندی نیز به دست آورد.دقت دسته بندی رامی توان به عنوان میزان اطمینان قاعده در نظر گرفت.

    مقدمه داده کاری: داده کاوی یک فرآیند دنباله ای بوده، که پیشرفت این فرآیند با اکتشاف از طریق روش های خودکار و یا دستی تعریف می شود.

    داده کاوی مفید ترین ابزاری است که در سناریوهای تحلیل اکتشافی، که هیچ گونه تصور قبلی از نتیجه جالب آن نمی توان داشت، به کار می رود.

    داده کاوی، در واقع جستجو برای اطلاعات جدید، ارزشمند و بارزی در حجم عظیمی از داده ها می‌باشد و تلاش همکارانه انسان و کامپیوتر را می طلبد.

    بهترین نتایج با متعادل کردن دانش متخصصان در توضیح مسائل و اهداف با قابلیتهای جستجوی کامپیوترها به دست می آیند.

    در عمل، دو هدف اصلی پیشگویی و توصیف را می توان برای داده کاوی در نظر گرفت.

    هدف پیش گویی با به بکارگیری برخی متغیرها و زمینه ها در مجموعه داده ها برای پیش گویی مقادیر ناشناخته و آتی متغیرهای مورد نظر دیگری معنا می یابد.

    هدف توصیف نیز بر یافتن الگوهایی که داده‌های قابل تفسیر توسط انسان را توصیف می کنند، تمرکز دارد.

    بنابراین می توان فعالیت های حوزده داده کاوی را در یکی از دو مقوله زیر گنجاند: 1-داده کاوی پیش بینی کننده، که مدل سیستم توصیف شده توسط مجموعه ای از داده ها را تولید می‌کند.

    2-داده کاوی توصیف کننده، که اطلاعات جدید و با اهمیتی را بر مبنای مجموعه داده‌های موجود تولید می‌کند.

    از جنبه پیش بینی کننده داده کاوی، هدف داده کاوی تولید یک مدل می‌باشد که صورت یک کد قابل اجرا بیان می شود.

    این مدل را می توان برای عملیات دسته بندی، پیش بینی، تخمین و یا موارد مشابه به کار برد.

    از جنبه توصیفی نیز هدف داده کاوی شناخت یک سیستم تحلیل شده به وسیله آشکارسازی الگوها و روابط در مجموعه های داده ای بزرگ می‌باشد.

    اهمیت وابسته پیش بینی و توصیف برای کاربردهای داده کاوی ممکن است متفاوت باشد.

    اهداف پیش بینی و توصیف با استفاده از روش های داده کاوی برای عملیات اولیه داده کاوی تحقق می یابند.

    این اهداف شامل موارد زیر می‌شوند: 1-دسته بندی: شناسایی یک تابع آموزش پیش بینی کننده که یک نمونه از داه را بر یکی از چند دسته تعریف شده قرار می‌دهد.

    2-برگشت (رگرسیون): شناسایی یک تابع آموزش پیش بینی کننده که یک نمونه از داده را به یک متغیر پیش بینی با مقدار حقیقی نگاشت می‌کند.

    3-گروه بندی: یک کار محمول توصیفی که به منظور شناسایی مجموعه محدودی از طبقات و یا گروه ها برای توصیف داده ها.

    4-خلاصه سازی: یک کار اضافی توصیفی که با روشهای برای یافتن یک توصیف فشرده از مجموعه و یا زیر مجموعه ای از دادهها سروکار دارد.

    5-مدل سازی وابستگی: یافتن یک مدل محلی که وابستگی مهم میان متغیرها و یا مقادیر یک مشخصه را در یک مجموعه داده و یا بخشی از آن توصیف کند.

    6-شناسایی تغییر و انحراف: شناسایی مهم ترین تغییرات در مجموعه داده ها.

    ریشه های داده کاوی با توجه به اینکه افراد مختلف تعاریف متفاوتی را از داده کاوی ارائه کرده اند، روشن است که ما از یک توافق واحد در تعریف داده کاوی و یا حتی آنچه داده کاوی را تشکیل می‌دهد برخوردار نیستیم.

    اغلب مسائل داده کاوی و راه حل های مربوط ریشه‌هایی در تحلیل کلاسیک داده ها دارند.

    داده کاوی سرچشمه هایی از علوم مختلف دارد که مهمترین آنها آمار و آموزش ماشین می باشند.

    آمار ریشه های خود از ریاضیات دارد و بنابراین بر سختی و خشونت ریاضیات تکیه دارد، میل به تصدیق این مطلب دارد که هر پدیده ای قبل از آنکه در عمل مورد آزمون قرار بگیرد، در تئوری قابل لمس می‌باشد.

    در مقابل، آموزش ماشین سرچشمه هایی قوی از شیوه های کامپیوتری دارد.

    این مسأله ما را به گرایشات عملی راهنمایی می کند، میل به آزمایش پدیده ای برای مشاهده چگونگی عملکرد آن، بدون اینکه منتظر اثبات رسمی کارایی آن بمانیم.

    اگر جایگاه ریاضیات یکی از تفاوت های اصلی میان روش های آماری و آموزش ماشین در داده کاوی باشد، تفاوت دیگر را می توان در میزان تأکیدی که این دو روش به مدل‌ها و الگوریتم ها می دهند، یافت.

    تقریباً همه روش های آماری مدرن از مفهوم یک مدل مشتق شده اند، این در واقع یک ساختار قیاسی و یا تقریبی از یک ساختار است که می تواند به داده ها منتهی شود.

    در مقابل تأکید روش های آماری بر مدلها، آموزش ماشین گرایش به تکیه بر الگوریتم ها دارد.

    جالب توجه است که، کلمه آموزش به شامل تمایلات و گرایشاتی به یک فرآیند و الزاماً یک الگوریتم دارد.

    اصول اولیه مدل سازی در داده کاوی ریشه هایی در تئوری کنترل نیز دارد که این تئوری به صورت اولیه در سیستم های مهندسی و فرآیندهای صنعتی به کار گرفته شده بود.

    مسأله تشخیص مدل ریاضی برای یک سیستم ناشناخته (یا به عبارتی سیستم مقصد) با مشاهده زوج داده های ورودی و خروجی آن به مبحث شناسایی سیستم ها بر می گردد.

    اهداف شناسایی سیستم مختلف می باشند از دیدگاه داده کاوی مهمترین آنها پیش بینی رفتار سیستم و تعریف عملکرد متقابل و روابط میان متغیرهای یک سیستم می باشند.

    به صورت عمده شناسایی سیستم با دو مرحله بالا به پایین درگیر است: 1-شناسایی ساختار: در این مرحله ما نیازمند به کارگیری دانش پیشین خود در زمینه سیستم مقصد می باشیم، تا بتوانیم دسته ای از مدلها را که ما را به مناسب ترین مدل می رساند تشخیص دهیم.

    معمولاً این دسته از مدل ها با یک تابع پارامتری به صورت مشخص می شود که y خروجی مدل، u بردار و ورودی و t بردار پارامترها می‌باشد.

    تعیین تابع f به مسأله وابسته است و این تابع به میزان تجربه طراح، درک و خواص طبیعی تشکیل دهنده سیستم مقصد مبتنی است.

    2-شناسایی پارامترها: در مرحله دوم، هنگامی که ساختار مدل شناخته شد، تنها کاری که باقی می ماند، اعمال روش های بهینه سازی برای شناسایی بردار پارامتر t می‌باشد بدین ترتیب مدل حاصل سیستم را به صورت مناسبی توصیف می‌کند.

    به طور کلی، شناسایی سیستم یک فرآیند تک گذر نیست، بلکه فرآیندهای شناسایی سیستم و پارامترها نیازمند تکرار مداوم تا یافتن مدل رضایت بخش می باشند.

    این فرآیند در شکل 2 نمایش داده شده است.

    مراحل اصلی در هر تکرار به صورت زیر می‌باشند.

    1-مشخص کردن و پارامتر دهی یک دسته از مدل ریاضی، ، که بیانگر شناسایی سیستم می‌باشد.

    2-انجام عملیات شناسایی پارامترها برای انتخاب بهترین پارامترها به صورتی که به بهترین نحو در مجموعه داده های موجود جای بگیرند و اختلاف کمینه باشد.

    3-به جریان انداختن آزمایش های تأیید اعتبار برای بررسی صحت پاسخ سیستم شناسایی شده به مجموعه داده های جدید که این عمل اغلب با عناوین آزمون، تصدیق و یا بررسی مجموعه داده ها خوانده می شود.

    4-خاتمه فرآیند هنگامی که نتایج آزمون های تأیید اعتبار رضایت بخش باشند.

    اگر ما اطلاعات قبلی از سیستم مقصد نداشته باشیم، آنگاه شناسایی ساختار مشکل خواهد شد و مجبور به انتخاب ساختار از روش آزمون و خطا می شویم.

    اگر اطلاعات گسترده ای از ساختار اغلب سیستم های مهندسی و فرآیندهای صنعتی داشته باشیم، در اکثر سیستم هایی که روش های داده کاوی را بر روی آنها اعمال می کنیم، ساختارشان کاملاً ناشناخته بوده و یا به اندازه ای پیچیده می باشند که استخراج مدل ریاضی دقیق برای آنها غیر ممکن می‌باشد.

    بنابراین، روش های جدیدی برای شناسایی پارامترها به وجود آمده و امروزه این روش بخشی از طیف های گسترده روش های داده کاوی را تشکیل می دهند.

  • فهرست:

    ندارد.


    منبع:

    ندارد.

مقدمه اي بر داده‌کاوي در دو دهه قبل توانايي هاي فني بشر در براي توليد و جمع آوري داده‌ها به سرعت افزايش يافته است. عواملي نظير استفاده گسترده از بارکد براي توليدات تجاري، به خدمت گرفتن کامپيوتر در کسب و کار، علوم، خدمات دولتي و پيشرفت در وسائل جمع

از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پايگاه داده ها دو برابر شد. همچنين تعداد پايگاه داده ها با سرعت بيشتري رشد نمود. اين در حالي است که تعداد متخصصين تحليل داده ها و آمارشناسان با اين س

بسياري از فروشگاهها پس از گذشت يک ربع قرن از آغاز فعاليت، هنوز مشتري وفادار خود را دارند. اين وفاداري تصادفي نيست. اداره کنندگان اين فروشگاهها به سلايق و نيازهاي مشتريان خويش واقف شده اند و توان مالي خريد آنها را مي شناسند. وقتي کسي از آنها راهنمايي

چکیده : داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای. این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها , الگوها و روابط مخفی را کشف کند. ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربراتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند. این تکنولوژی نوظهور، اخیرًا به طورفزایند ...

با افزايش سيستمهاي کامپيوتر و گسترش تکنولوژي اطلاعات , بحث اصلي در علم کامپيوتر از چگونگي جمع آوري اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سيستمهاي داده کاوي ,اين امکان را به کاربر مي دهند که بتواند انبوه داده هاي جمع آوري شده را تفسير کن

مقدمه : هدف از این اراِئه و تحقیق بررسی روشهای مطرح داده کاوی است .داده کاوی هر نوع استخراج دانش و یا الگواز داده های موجود در پایگاه داده است که این دانشها و الگوها ضمنی و مستتر در داده ها هستند ,از داده کاوی می توان جهت امور رده بندی (Classification ) و تخمین (Estimation) ,پیش بینی (Prediction) و خوشه بندی (Clustering)استفاده کرد .داده کاوی دارای محاسن فراوانی است . از مهمترین ...

همانگونه که از تعريف فوق-که توسط يکي از بنيانگذاران هوش مصنوعي ارائه شده است- برمي‌آيد،حداقل به دو سؤال بايد پاسخ داد: 1 هوشمندي چيست؟ 2 برنامه‌هاي هوشمند، چه نوعي از برنامه‌ها هستند؟ تعريف ديگري که از هوش مصنوعي مي‌توان ارائه داد به قرار زير است:

الگوريتم ها در کامپيوتر ها اعمال مشخص و واضحي هستند که بصورت پي در پي و در جهت رسيدن به هدف خاصي انجام مي شوند.حتي در تعريف الگوريتم اين گونه آمده است که الگوريتم عبارت است از مجموعه اي ازاعمال واضح که دنبال اي از عمليات را براي رسيدن به هدف خاصي دن

دادِگان (پايگاه داده‌ها يا بانک اطلاعاتي) به مجموعه‌اي از اطلاعات با ساختار منظم و سامانمند گفته مي‌شود. اين پايگاه‌هاي اطلاعاتي معمولاً در قالبي که براي دستگاه‌ها و رايانه‌ها قابل خواندن و قابل دسترسي باشند ذخيره مي‌شوند. البته چنين شيوه ذخيره‌سازي

دادِگان (پايگاه داده‌ها يا بانک اطلاعاتي) به مجموعه‌اي از اطلاعات با ساختار منظم و سامانمند گفته مي‌شود. اين پايگاه‌هاي اطلاعاتي معمولاً در قالبي که براي دستگاه‌ها و رايانه‌ها قابل خواندن و قابل دسترسي باشند ذخيره مي‌شوند. البته چنين شيوه ذخيره‌سازي

ثبت سفارش
تعداد
عنوان محصول