چکیده : داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای.
این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها , الگوها و روابط مخفی را کشف کند.
ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربراتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند.
این تکنولوژی نوظهور، اخیرًا به طورفزایند های در تحلیل ها مورد استفاده قرار می گیرد.
کلمات کلیدی : Data mining, Predictive data mining, Exploration data analysis, Data warehousing, Olap, neural network, Deployment , machine Learning, Meta-learning, Bagging , Boosting , clustering , Eda Drill-down analysis, Stacket generalization , classification مقدمه : امروزه با حجم عظیمی از داده ها روبرو هستیم.
برای استفاده از آنها به ابزارهای کشف دانش نیاز داریم.
داده کاوی به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار می گیرد.
داده کاوی در علوم (ستاره شناسی،...)در تجارت (تبلیغات، مدیریت ارتباط با مشتری،...) در وب (موتورهای جستجو،...) در مسایل دولتی (فعالیتهای ضد تروریستی،...) کاربرد دارد.
عبارت داده کاوی شباهت به استخراج زغال سنگ و طلا دارد.
داده کاوی نیز اطلاعات را که در انبارهای داده مدفون شده است، استخراج می کند.
در واقع هدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است.
این مدلها رفتارهای آینده را براساس تحلیلهای گذشته پیش بینی می کنند.
به کاربردن داده کاوی به عنوان اهرمی برای آماده سازی داده ها و تکمیل قابلیتهای انباره داده ، بهترین موقعیت را برای به دست آوردن برتریهای رقابتی ایجاد می کند.
داده کاوی (Data mining) : داده کاوی (Data mining) یک فرایند تحلیلی است که جهت کاوش داده ها (معمولاً حجم بالای داده ها و یا داده های تجاری و مربوط به بازار) و جستجوی الگوهای پایدار یا روابط سیستماتیک مابین متغیرها بکار میرود وسپس با اعمال الکو های شناسایی شده به زیر مجمو عه های جدید صحت داده های بدست آمده بررسی میگردد.
هدف نهایی داده کاوی پیشگویی است.
سازما نها معمو ً لا روزانه مقدار زیادی داده را در انجام عملیات تجاری خود تولید و جمع آوری می کنند.
امروزه برای این پایگاه های داده شرکتی عجیب نیست که مقدار داده های آن در حد ترابایت باشد.
با این حال علی رغم ثروت اطلاعاتی عظیم ذخیره شده حدس زده می شود که فقط ٪ ٧کل داد ه هایی که جمع آوری می شود مورد استفاده قرار می گیرد.
بدین ترتیب مقدار قابل توجهی داده که بدون شک حاوی اطلاعات ارزشمند سازمانی است تا حد زیادی دست نخورده باقی می ماند.
در محیط تجاری عصر اطلاعات، که هر روز رقابتی تر می شود می توان با استخراج اطلاعات از داد ه های استفاده نشده به تصمیم گیری های استراتژیک دست یافت.
در طول تاریخ تحلیل داده ها از طریق رگرسیون و دیگر تکنیک های آماری انجام شده است.
برای استفاده از این تکنیکها ، لازم است که تحلیل گر مدلی خلق کند و فرآیند گر دآوری دانش را سازمان دهد.
اما امروزه این روش ها به تنهایی کافی نیستند و باید از روش ها ی خود کار استفاده کرد.
داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای.
این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها ، الگوها و روابط مخفی را کشف کند.
ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربر اتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند.
این تکنولوژی نوظهور، اخیرًا به طور فرایند های در تحلیل ها مورد استفاده قرار می گیرد داده کاوی پیشگویانه رایج ترین نوع داده کاوی است و با برنامه های کاربردی تجاری در ارتباط مستقیم است .
فرایند داده کاوی از سه مرحله تشکیل شده است.
ا- کاوش اولیه (initial exploration ) 2-ساختن مدل یا شناسایی الگو بوسیله سنجیدن اعتبار وصحت داده ها 3-گسترش 1- مرحله کاوش(Exploration) : این مرحله معمولاً با آماده سازی داده ها آغاز می شود که تشکیل شده است از پاکسازی داده ها (cleaning data) ،تغیر شکل داده ها، انتخاب زیر مجموعه ای از رکورد ها (در زمانی که مجموعه ای از داده ها با حجم بالایی از فیلد ها موجود است) و انجام دادن برخی عملیات اولیه جهت قرار دادن متغیر ها در یک بازه قابل مدیریت،که بستگی به روش آماری ای که مورد نظراست دارد و پس ازآن به طبیعت مسئله تحت بررسی مربوط می شود.
مرحلهُ اول فرآیند داده کاوی می تواند در هر جایی از گستره ، انتحاب یک روش مستقیم پیشگویی تا یک روش تجزیه و تحلیل با جزئیات وزحمت بالا قرار داشته باشد .(جهت کسب اطلاعات وسیع تر به قسمت EDA مراجعه کنید).
این مدل جهت شناسایی متغییر هایی که بیشتر از همه با موضوع مرتبط هستند و جهت مشخص کردن پیچیدگی و طبیعت کلی مسئله در مراحل بعدی مورد استفاده قرار میگیرد .
مرحله 2- ساختن مدل و معتبر سازی (model building and validation): این مرحله در گیر در نظر گرفتن مدل های مختلف،و انتخاب بهترین آنها بر اساس کارایی در پیشگویی ، می باشد.(برای مثال تعییرات سوُالات را تشریح کندونتایج ثابتی در مقابل نمونه ها تولید کند.) شاید این به نظر عملیات ساده ای بیاید.
ولی در واقع بعضی از مواقع در گیر یکسری فرآیند های پیچیده می شود.روشهای مختلفی جهت رسیدن به این هدف وجود دارد که آنها را روشهای ارزیابی رقابتی مدل ها (competitive evaluation of models ) می نامند که مدلهای مختلفی را بر روی یک دادهُ ثابت اعمال می کند و سپس کارایی آنها بررسی می شود تا بهترین آنها انتخاب گردد.
این روش ها که در خیلی از مواقع به عنوان هستهُ داده کاوی پیشگویانه تلقی می گردند و شامل طبقه بندی کردن(bagging،)، ترقی دادن (boosting ) ،انباشتن (stacking )و یادگیری غیر نمادین(meta learning )میباشند.
مرحله 3- مرحلهُ گسترش Deployment):( : در آخرین مرحله مدلی که به عنوای بهترین مدل در مرحله قبلی انتخاب شده بود بر روی داده های جدید به منظور تولید پیشگویی یا بر آورد خروجی مورد انتظار اعمال میگردد.
شهرت داده کاوی به طور روز افزونی به عنوان یک ا بزار مدیریت تجاری داده ها شهرت یافته است و انتظار می رود بتواند ساختار های دانشی را نمایان سازد که در شرایط عدم قطعیت تصمیمات گرفته شده را هدایت کند.
روشهای تحلیلی جدید خصوصاً جهت نشان دادن مسائل مرتبط با داده کاوی تجاری ،اخیراًبسیار مورد توجه بوده اند (به عنوان مثال درخت های رده بندی) ، با این حال داده کاوی هنوز مبتنی بر قواعد مفهومی روشهای دستیابی قدیمی نظیر آنالیز اکتشافی داده ها (EDA) و مدلساری میباشد.
وقسمت هایی از دست آورد های عمومی و بعضی از تکنیک های خاص خود را با آنها به اشتراک می گذارد.
بهرحال تفاوت زیادی در نفطه نظرات و اهداف داده کاوی و روش آنالیز اکتشافی داده ها (EDA) وجود دارد .
داده کاوی بیشتر متمایل به کاربردها است تا طبیعت اصلی پدیده مورد بررسی.به عبارت دیگر داده کاوی کمتر به شناسایی روابط خاص موجود بین متغیرها می پردازد.برای مثال آشکار کردن توابع و انواع داده ای خاصی که بر روابط تعاملی و چند متغیری که بین متغیرها وجود دارد هدف اصلی داده کاوی نمی باشد.
در عوض توجه خود را به ایجاد روشی که بتواند پیشگویی قابل استفاده ای تولید کند معطوف می سازد.
و به همین دلیل است که داده کاوی از بین دست آوردهای جعبه سیاه(black box ) در کاوش داده ها یا اکتشاف دانش مقبولیت بیشتری دارد.
و نه تنها از روش های سنتی آنالیز اکتشافی داده ها (exploratory data analysis (استفاده می کند بلکه از روشهایی مانند شبکه های عصبی ( Neural network ) که می تواند پیشگویی های معتبری تولید کند ولی قادر به شناسایی طبیعت خاص روابط داخلی بین متغیرهایی که پیشگویی ها بر اساس آنها صورت گرفته است نمیباشد سود می جوید.
مفاهیم تعیین کننده در داده کاوی: 1-هم پیوندی (Bagging) : هم پیوندی قابلیتی برای یافتن روابط ناشناخته موجود در اطلاعات است.
این روابط مواردی از قبیل اینکه حضور مجموعه ای از مقولات اشاره به این دارند که مجموعه مقولات دیگری نیز احتمالا وجود دارند را شامل می شود.
این قابلیت اساسًا روشی است برای اینکه کشف کنیم چه مقولاتی به هم می خورند.
از آن با عنوان تحلیل سبد بازار یا گروه بندی خویشاوندی نیز یاد می شود.
برای مثال، گزار شهای هم پیوندی چنین شکلی دارند:"٪ ٨٠ مشتریانی که کالای A را خریداری نموده اند، کالای Bرا نیز خریده اند." درصد خاص وقوع وقایع) مثلا ٪ ٨٠ این نمونه ( را فاکتور اطمینان هم پیوندی B و A می نامند.
همچنین ممکن است هم پیوندی های چند گانه وجود داشته باشد: "٪ ٧٥ مشتریانی که کالای D را خریداری نموده اند، کالای Cرا نیز خریده اند." کاربرد های هم پیوندی عبارتند از برنامه ریزی موجودی، برنامه ریزی تبلیغاتی برای فروش و مراسلات بازاریابی مستقیم.
مفهوم Bagging (راُی دادن به رده بندی و بدست آوردن متوسط مسائلی که دارای متغیر هایی با مقادیر متوسط وابسته میباشند)و در گستره داده کاوی اعمال می گردد تا طبقه بندی های پیشگویانه را از مدل های چندگانه یا از یک نوع مدل ، برای درک اطلاعات ترکیب کند .
و همچنین جهت نشان دادن بی ثبا تی ماندگار نتایج در زمانی که مدل های پیچیده به مجموعه های کوچک داده ها اعمال می شوند به کار می رود.
فرض کنید که عمل داده کاوی شما می خواهد یک مدل جهت طبقه بندی پیشگویا نه بسازد و مجموعه داده های آن نسبتاً کوچک است .
شما می توانید به صورت متوالی مجموعه داده ها را به نمونه های کوجکتر تقسیم کنید و اعمال کنید همانند رده بندی درختی تا به نمونه مورد نظر برسید.در عمل درخت های متفاوتی برای نمونه های منقاوت بسط داده میشوند.یکی از روش های استنتاج یک پیشگویی استفاده از قالب درختی در نمونه های مختلف است و پس از آن برخی نظریات بر روی آن اعمال می گردد.
طبقه بندی نهایی طبقه بندی است که عموماً توسط درخت های متفاوت پیشگویی می شود.
توجه داشته باشید که برخی از ترکیب های وزن دار از پیشگویی ها نیز محتمل است و عموماً مورد استفاده قرار می گیرد.
یک الگوریتم پیشرفته جهت ایجاد وزن برای پیشگویی های وزن دار یا voting رویه های Boosting هستند.
2-طبقه بندی) Boosting ( : طبقه بندی در واقع ارزشیابی ویژگیهای مجموعه ای از داد ه ها و سپس اختصاص دادن آ نها به مجموعه ای از گرو ههای از پیش تعریف شده است.
این متداولترین قابلیت داده کاوی می باشد.
داده کاوی را می توان با استفاده از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی های داده ها به کار برد.
سپس می توان از این مدل تعریف شده برای طبقه بندی مجموعه داده های جدید استفاده کرد.
همچنین می توان با تعیین نمایی که با آن سازگار است برای پیش بینی های آتی از آن بهره گرفت.
برای مثال، برای طبقه بندی تخلفات و کلاهبرداری ها در صنعت و اعتبارات، با استفاده از قابلیت طبقه بندی داده کاوی، سیستم با استفاده از مجموعه ای از پیش تعریف شده از داده ها، تعلیم می بیند.
مجموعه داد ه های مورد استفاده در این نمونه باید هم شامل مجموعه هایی از داد ه های معتبر باشند و هم شامل مجموعه هایی از داد ه های جعلی.
از آن جا که این داده ها از پیش تعریف شده هستند، سیستم پارامترهایی را می یابد که می توان از آ نها برای تشخیص طبقه بندی های متمایز استفاده کرد.
بعد از تعیین پارامترها سیستم از آ نها برای طبقه بندی های بعدی بهره خواهد گرفت.
در واقع سیستم هایی که بر اساس طبقه بندی داده کاوی می کنند، دو مجموعه ورودی دارند: یک مجموعه آموزشی که در آن داده هایی که به طور پیش فرض در دسته های مختلفی قرار دارند، همراه با ساختار دسته بندی خود وارد سیستم می شوند و سیستم بر اساس آ نها به خود آموزش می دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می کند.
دسته دیگر از ورودی هایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم می شوند.
تکنیک های داده کاوی که برای دسته بندی به کار می آیند عمومًا شامل تکنیک های شبکه عصبی و درخت تصمیم گیری هستند.
یکی از متغیرهای مهم در قابلیت دسته بندی برآورد یا امتیاز دهی است.
هر جا طبقه بندی یک پاسخ دو تایی مثل بله و خیر ارائه کند، برآورد یک درجه بندی مثل پایین بالا و یا متوسط ارائه می کند.
در اصل برآورد، چندین نما در امتداد مجموعه ای از داده ها فراهم می آورد که نشان دهنده درجه تعلق یک نما به یک مجموعه است.
کاربرد قابلیت طبقه بندی در بازاریابی هدف، تصویب اعتبار و بررسی تقلب، است مفهوم Boosting در گستره داده کاوی پیشگویانه مطرح می شود و جهت ایجاد مدل ها و طبقه بندی های چند گانه مورد استفاده قرار می گیرد و همچنین برای استنتاج وزن ها برای ترکیب پیشگویی ها از آن مدل ها در یک پیشگویی واحد یا یک رده پیشگویی به کار می رود.
یک الگوریتم ساده جهت Boosting به صورت این صورت عمل می کند که ابتدا کار را با اعمال کردن روش هایی بر روی learning data آغاز می کنیم (مانند طبقه بندی کننده های درختی )و به هر مشاهده وزن یکسانی نسبت می دهیم.
طبقه بندی های پیشگویی شده را محاسبه کنید و وزن های تعیین شده را بر روی مشاهدات نمونه مورد بررسی که نسبت معکوس با دقت طبقه بندی دارند اعمال کنید .به عبارت ساده تر به مشاهداتی که طبقه بندی آنها دشوار تر است وزن بیشتری را اختصاص بدهید .(یعنی نرخ عدم طبقه بندی آنها بالا بوده است) و وزن کمتری را به آنهایی که طبقه بندی آنها ساده تر بوده است نسبت بدهید.(نرخ عدم طبقه بندی پایین بوده است )،سپس طبقه بندی را دوباره به داده های وزن دار اعمال کنیدو در طی چرخه بعدی این عملیات را ادامه دهید.
Boosting یک توالی از طبقه بندی ها ایجاد می کند .که هر توالی طبقه بندی در این روندیک متخصص در امر طبقه بندی مشاهداتی که پیش بینی آنها ساده نبوده است خواهد بود ، وسپس پیشگویی های انجام شده توسط طبقه بندی کننده های مختلف با یکدیگر ترکیب می شوند تا یک پیشگویی یا طبقه بندی بهینه ارائه دهند.
٣.الگوهای ترتیبی : قابلیتهای ترتیبی هم مانند قابلیتهای هم پیوندی این خاصیت را دارند که می توانند وقایع را با هم مرتبط کنند.
این کار در هم پیوندی سنتی یا تحلیل سبد بازار مجموعه ای از مقولات را به عنوان مقولات پشت سر هم ارزیابی می کنند و از ابزارهایی مثل سر یهای زمانی هم برای تعیین ترتیب بهره می برند.
الگوهای ترتیبی علاوه بر آن، این قابلیت جدید را هم دارند که می توانند فاصله زمانی بین دو واقعه را تخمین بزنند.
برای مثال این قابلیت امکان نتیجه گیری هایی از قبیل اینکه " ٪ ٨٠ افرادی که کامپیوتر می خرند ظرف مدت ١ سال چاپگر هم خواهند خرید." را مهیا می نماید.
به این ترتیب شناسایی نوعی از خریدهای مقدماتی که پتانسیل خریدهای بعدی را در آینده تعیین می کنند، عملی می شود.
در نتیجه از چنین تحلیل هایی به شدت در تبلیغات فروش استفاده می گردد.
٤.خوشه بندی(clustering) : قابلیت خوشه بندی وظیفه تقسیم یک گروه ناهمجنس را در چندین زیر گروه بر عهده دارد.
این فرایند یک تفاوت اساسی با طبقه بندی دارد.
زیرا در این مدل هیچ گونه الگوی آموزشی نداریم.
خوشه بندی به طور خودکار ویژگی های متمایز کننده زیر گروه ها را تعریف می کند و زیر گرو هها را سازماندهی می نماید.
و به عنوان نوعی قابلیت داده کاوی غیر مستقیم مطرح است.
این ابزارها پایگاه داده را بر اساس ویژگی های داده ها به چندین بخش تقسیم می کنند و گروه هایی از رکوردها را به وجود می آورند که نمایانگر یا صاحب صفت خاصی هستند.
الگوهای به دست آمده در ذات پایگاه داده نهادینه هستند و نشانگر بعضی اطلاعات غیر منتظره و در عین حال ارزشمند شرکتی باشند.
مثالی از کاربردهای خوشه بندی در تقسیم بندی افرادی است که به پرسش نامه ای پاسخ داده اند.
از این کار می توان در تقسیم بندی مشتریانی که به پرسش نامه ها پاسخ داده اند در گروه هایی که اعضای آن بیشترین شباهت را با یکدیگر و بیشترین تفاوت را با اعضای سایر گروه ها دارند، استفاده کرد.
بعد از بخش بندی جمعیتی با استفاده از قابلیت خوشه بندی می توان بر روی خوشه های مشخص شده تحلیل هم پیوندی انجام داد تا خریدهای به هم مرتبط یک گروه جمعیتی خاص شناخته شوند.
کاربرد خوشه بندی برای تعیین بهترین گروه های جامعه شناختی برای اهداف خاص بازاریابی است.
اغلب از خوشه بندی به عنوان اولین گام فراین دهای داده کاوی یاد می شود که قبل از سایر فرایند ها برای شناسایی گروهی از رکوردهای مرتبط با هم که بعدًا بتوانند نقطه آغاز تحلیلها باشند بر روی رکوردها اعمال می شود.
تهیه مقدمات جهت داده کاوی : تهیه مقدمات لازم و انجام پاکسازی از جمله مراحل بسیار مهّم ولی عموماً غفلت شده در فرایند داده کاوی می باشد.
مصداق آن در بسیاری از پروژه های داده کاوی است که در آنها مجموعه ای از داده ها بوسیله برخی روشهای اتوماتیک بدست می آیند.
عموماً روشهایی که توسط آنها داده هاحمع آوری می شوند بدرستی کنترل نشده است ( مثل web )و مثلاً داده ها ممکن است شامل مقادیر خارج از محدوده باشند (مثل 100- = درآمد) و ترکیبات غیر ممکن داده ها و آنالیز داده هایی که با دقت انتخاب نشده اند در چنین مسائلی منجر به تولید نتایج منحرف کننده ای می گردد.
خصوصاً در داده کاوی پیشگویانه این مشکل بسیار محسوس است.
کاهش داده ها در داده کاوی: عبارت کاهش داده ها در مقوله داده کاوی بیشتر در مورد پروژه هایی به کار می رود که هدف آن ها این است که اطلاعات موجود در مجموعه داده های بزرگ را به صورت قطعه هایی کوچکتر و قابل اداره ، جمع آوری و در هم بیامیزند.
روش های کاهش داده می توانند شامل جدول بندی های ساده(tabulation) ،تجمع(agrigation) یا روش های پیچیده دیگری نظیر clustering، (clustering principal component analysis) باشند.
گسترش داده کاوی Deployment : مفهوم گسترش داده کاوی اشاره به درخواست مدل برای پیشگویی یا طبقه بندی یک داده جدید دارد.
پیش از آنکه یک مدل یا مجموعه ای از مدل های مشخص برای یک درخواست خاص مشخص شود افراد معمولاً می خواهند که این روشها را طوری گسترش دهند که پیشگویی ها یا طبقه بندی های پیشگویانه به سرعت برای داده های جدید بکار گرفته شوند به عنوان مثال یک شرکت کارت اعتباری تمایل دارد که یک مدل یا مجموعه ای از مدل های مشخص را (مثل neural network meta learning , ) به کار گیرد تا تراکنش هایی را که احتمال تقلب در آنها زیاد است مشخص کند.
آنالیز (Drill – down analysis) : مفهوم آنالیزDrill-down داده کاوی بدین منظور به کار می رود تا کاوش تعاملی داده ها را به صورت دقیق در پایگاه داده ها داده ها مشخص کند.فرآیند آنالیز Drill-down با در نظر گرفتن برخی طبفه بندی ها بر مبنی مقادیری از متغیرهای مهّم مانند (جنسیت ، نواحی جغرافیایی و غیره ) آغاز می شود .
آمار و ارقام گوناگون،جداول و نمودارها و انواع دیگر خلاصه های گرافیکی می توانند برای هر دسته نتیجه شوند.سپس ممکن است بخواهید آنالیزهای متغیر ی بر روی داده های هر گروه انحام دهید برای مثال ممکن است شخصی بخواهد آنالیزهای متغیری برروی داده های بدست آمده در مورد مردان ساکن غرب بدست آورد در اینجا ارقام و نمودارهای گوناگونی بدست می آید که می توانند تحت آنالیزهای متغیر بر اساس متغیرهایی نظیر سن،درآمد وغیره به دسته های کوچکتر ی طبقه بندی گردند .
در پایین ترین سطح داده های خام قراردارند .
برای مثال شما ممکن است بخواهید داده های مربوط به مشتریان مرد ساکن در یک ناحیه با میزان درآمد مشخص و غیره را تحت بررسی قرار دهید و به آن مشتریان سرویس های خاصی را ارائه دهید.
انتخاب خصیصه ها (Feature selection) : یکی از مراحل اولیه در داده کاوی پیشگویانه انتخاب خصیصه ها است.
زمانی که در مرحله مدل سازی واقعی (یا حتی در مراحل اولیه عملیات کاوشگری ) مجموعه داده ها شامل متغیرهای بیش از اندازه مجاز شده باشد پیشگویی ها از میان یک لیست بزرگ از کاندیدا ها انتخاب می شوند(برای مثال زمانی که داده ها توسط یک روش اتوماتیک (کامپیوتری ) جمع آوری میشوند.
عیر معمول به نظر نمی رسد که هزاران یا صدها هزار پیشگویی بدست آید.
روش های استاندارد آنالیز جهت داده کاوی پیشگویانه نظیر آنالیز شبکه های عصبی (neural network)طبقه بندی ودرخت های بازگشتی (classification and regression trees) و مدل های خطی تقسیم یافته (generalized linear models) زمانی که تعداد پیشگویی ها از چند صد متغیر تجاوز می کند غیر عملی به نظر می رسند.
انتخاب خصیصه ها یک زیر مجموعه از خصیصه ها را از میان یک لیست بزرگ از پیشگویی های کاندید بدون در نظر گرفتن ارتباط بین پیشگویی ها یا اینکه ارتباط آنها خطی است ،یا یکنواخت انتخاب می کند.
به همین دلیل این روش که عنوان یک پیش پردازنده برای داده کاوی پیشگویانه عمل میکند با مجموعه های قابل اداره ای از پیشگویی ها بدست آید که این مجموعه ها احتمالا با یکدیگر مرتبط اند،و سپس آنالیز های بیشتری بر روی آنها صورت می گیرد تا طبقه بندی شوند.
فراگیری ماشین (Machine learning): فراگیری ماشین یا تئوری فراگیری محاسبه ای یا جملاتی نظیر این در زمینه داده کاوی جهت مشخص کردن کاربرد مدل های مناسب عمومی یا الگوریتم های طبقه بندی در داده کاوی پیشگویانه به کار می رود.
به عکس روش های استاتیک قدیمی در آنالیز داده ها که معمولا با برآورد پارامترهای جمعیتی بوسیله ارجاعات استاتیک بدست می آمدند.در داده کاوی (و فراگیری ماشین )معمولا ًبه دقت پیشگویی ها(طبقه بندی های پیشگویانه) بدون توجه به اینکه مدل یا روش های به کاررفته جهت ایجاد پیشگویی ها قابل تفسیر و توجیح اند ، پرداخته می شود.
یک نمونه خوب از به کاربر بردن این روش ها در داده کاوی پیشگویانه(predictive data mining) ،شبکه های عصبی یا فراگیری های غیر نمادین(meta learning) یا غیره بد ست می آید.
این روش ها معمولاً درگیر گنجاندن مدل های عمومی که هیچ مبنای استدلالی یا درک تئوریتیکی به عنوان زیر بنای فرآیند ها ندارند در عوض این روش ها جهت تولید پیشگویی های دقیق یا طبقه بندی ها در نمونه های crossvalidation عرضه می شوند.
Meta-learning (فراگیری غیر نمادین) : مفهوم meta-learning در حیطه داده کاوی پیشگویانه جهت ترکیب پیشگویی ها از چند مدل به کار می رود.به خصوص زمانی به کار می رود که نوع مدل هایی که در پروژه وجود دارند بسیار متفاوت باشند.
این رویه در این مقدمه همچنین به بسته سازی (تعمیم پشته) stack generalization اشاره می کند.
فرض کنید پروژه داده کاوی شما شامل 300 دسته بندی است همانند chaid و c &RTو آنالیز تفکیک کننده خطی (linear discriminant analysis) و شبکه های عصبی هر کدام یک طبقه بندی پیشگویانه را برای یک نمونه cross validation محاسبه می کند تجربه نشان داده است که ترکیب پیشگویی های انجام شده توسط چند روش معمولاً پیشگویی های دقیق تری را بدست می دهد تا نتایجی که از یک روش بدست می آید .پیشگویی های بدست آمده از دسته بندی های مختلف می توانند به عنوان ورودی یک meta-learner مورد استفاده قرار گیرد،و meta-learner پیشگویی های انجام شده را جهت ایجاد یک دسته بندی پیشگویانه بهینه نهایی ترکیب می کند.
برای مثال دسته بندی های پیشگویانه(predicted classifications) شامل دسته بندی در ختی مدل خطی (tree classifiers) و دسته بندی شبکه های عصبی(neural network classifiers) می توانند به عنوان متغیرهای ورودی به یک ابر طبقه بندی کننده شبکه های عصبی داده شوند و از داده ها درک می کند که چگونه پیشگویی ها انجام شده توسط مدل های مختلف را ترکیب کند.و بیشترین دقت را در طبقه بندی ایجاد کند.
مدل های داده کاوی: در محیط های تجارتی ،پروژه های داده کاوی پیچیده نیاز دارند که مسائل متخصصین ، سهامداران، ادارات مختلفی را در یک سازمان هماهنگ کنند.
در فرهنگ داده کاوی چهارچوب های کاری مختلفی جهت ارائه یک طرح برای تنظیم فرآیند جمع آوری اطلاعات ، آنالیز اطلاعات ، انتشار نتایج و پیاده سازی نتایج و نظارت بر پیشرفت کار پیشنهاد شده است.
یکی از این مدل ها CRIP (فرآیندهای استاندارد cross-indostry برای داده کاوی )است که اواسط سال 1990 توسط ائتلاف شرکت های اروپایی به عنوان یک استاندارد غیر خصوصی فرآیند داده کاوی ارائه شد.
این دستاورد عمومی سلسله مراحل زیر را برای پروژه های داده کاوی بر می شمارد.
یک دستاورد دیگر (متدولوژی six sigma )که یک متدولوژی مبتنی بر داده و خوش ساختار است وجهت از بین بردن معایب ، افت و کنترل کیفیت در تمامی انواع تولیدات ، ارائه خدمات ،مدیریت و دیگر فعالیت های تجاری به کار می رود .
این مدل اخیراً در صنعت آمریکا بسیار رایج شده است و به نظر می رسد که در جهان نیز موفقیت هایی کسب کند.
این مدل از مراحلی که مراحل DMAIC نامیده می شود تشکیل شده است .
یک چهارچوب کاری دیگر از این نوع دستآوردی است که توسط موُسسه SAS پیشنهاد شد به نام SEMMA (sample) نمونه (Explore) کاوش ویرایش مدل سازی ارزیابی((assess که بیشتر به فعالیت های تکنیکی که در پروژه های داده کاوی درگیر آن میباشیم می پردازد.
تمام مدلهای ذکر شده به این فرآیند توجه دارند که متدولوژی های داده کاوی را در یک سازمان بگنجانند.یا به عبارتی چگونه داده ها را به اطلاعات تبدیل کنند و چگونه سهامداران را درگیر کنند.و اینکه چگونه اطلاعات را به فرمی توزیع کنند که به راحتی توسط سهامداران قابل تبدیل به منابعی جهت تصمیم گیری های استراتژیکی شوند.
برخی ابزارهای نرم افزاری برای داده کاوی به صورتی طراحی و مستند شده اند که مخصوص یکی از چهارچوب های کاری ذکر شده باشند.
فرایند داده کاوی در مدیریت ارتباط با مشتری : داده کاوی یکی از عناصر مدیریت ارتباط با مشتری است و می تواند به حرکت شرکتها به سمت مشتری محوری کمک کند.
فرایند داده کاوی در مدیریت ارتباط با مشتری به صورت زیر است .
داده های خام از منابع مختلفی جمع آوری می شوند و از طریق استخراج، ترجمه و فرایندهای فراخوانی به انبار داده این مدیریت وارد می شوند.
در بخش مهیـــاسازی داده، داده ها از انبار خارج شده و به صورت یک فرمت مناسب برای داده کاوی در می آیند.بخش کشف الگو شامل چهار لایه است: 1 - سوالهای تجاری مانند توصیف مشتری،2 - کاربردها مانند امتیازدهی، پیش گویی،3 - روشها مانند سری های زمانی، طبقه بندی،4 - الگوریتم ها.
در این بخش روشهای داده کاوی با کاربرد مخصوص خود برای پاسخ به سوالهای تجاری که به ذهن می رسند، الگوریتم هایی را استخراج می کنند و از این الگوریتم ها برای ساخت الگو استفاده می شود.
در بخش تجزیه و تحلیل الگو، الگوها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب می شوند در یک سیستم اجرایی به کار گرفته خواهند شد.
داده کاوی پیشگویانه (Predictive data mining) : عبارت داده کاوی پیشگویانه معمولاً برای مشخص کردن پروژه های داده کاوی به کار می رود که هدف آنها مشخص کردن یک مدل استاتیک یا شبکه های عصبی ویا مجموعه ای از مدل ها است که بتواند واکنش برخی مسائل مورد توجه ما را پیشگویی کند.
به عنوان مثال یک مشترک کارت اعتباری ممکن است بخواهد داده کاوی پیشگویانه را به کار گیرد و از یک مدل یا مجموعه ای از مدل ها استفاده کند تا تراکنش هایی که احتمال تقلب در آنها زیاد است را مشخص کند.
انواع دیگر پروژه های داده کاوی ممکن است در واقع بیشتر کاوشگرایانه باشند(مانند مشخص کردن گروه و بخشی که مشتری به آن تعلق دارد) که در این موارد تشریح بوسیله روش Drill down و روشهای کاوشگرایانه به کار گرفته می شوند .
کاهش داده ها(data reduction) را می توان به عنوان یکی دیگر از اهداف داده کاوی بر شمرد.(به عنوان مثال جمع آوری و ترکیب اطلاعاتی که در مجموعه های بسیار بزرگی از داده ها قرار دارند به فرمی که قابل اداره کردن باشند).
تعمیم پشته ای (stacked generalization) .: مفهوم stacked generalization در حیطه داده کاوی پیشگویانه جهت ترکیب پیشگویی ها از چند مدل به کار می رود.به خصوص زمانی به کار می رود که نوع مدل هایی که در پروژه وجود دارند بسیار متفاوت باشند.
فرض کنید پروژه داده کاوی شما شامل 300 دسته بندی است همانند chaid و c &RTو آنالیز تفکیک کننده خطی (linear discriminant analysis) و شبکه های عصبی هر کدام یک طبقه بندی پیشگویانه را برای یک نمونه cross validation محاسبه می کند تجربه نشان داده است که ترکیب پیشگویی های انجام شده توسط چند روش معمولاً پیشگویی های دقیق تری را بدست می دهد تا نتایجی که از یک روش بدست می آید .پیشگویی های بدست آمده از دسته بندی های مختلف می توانند به عنوان ورودی یک meta-learner مورد استفاده قرار گیرد،و stacked generalization r پیشگویی های انجام شده را جهت ایجاد یک دسته بندی پیشگویانه بهینه نهایی ترکیب می کند.
روشهای دیگری که جهت ترکیب پیشگویی های انجام شده توسط چند مدل وجود دارد عبارتند از Bagging ,Boodting متن کاوی (text mining) : در حالی که داده کاوی معمولاً داده ها را در قالب داده های عددی تشخیص می دهد ولی بیشتر مواقع اطلاعات بسیار مهّم در قالب متن ذخیره می شوند.
بر خلاف داده های عددی متن ها دارای ساختاری غیر مشخص میباشندو بررسی آنها مشکل است .
متن کاوی معمولاًتشکیل شده است از آنالیز متن ها بوسیله استخراج عبارات ، مفاهیم و غیره.
آماده سازی متن های پردازش شده در این حالت جهت آنالیز های آتی بوسیله روشهای داده کاوی عددی (به عنوان مثال جهت مشخص کردن وقوع همزمان مفاهیم ،عبارات کلیدی ،نام ها ، آدرس ها ، نام محصولات وغیره )صورت می گیرد.
انبار داده ها (Data Warehousing ) : Data warehousing را اینگونه تعریف میکنند که فرآیندی است که مجموعه دادههای چندمتغییره بزرگ را به گونهای ذخیره میکند.
که بازیابی اطلاعات را جهت مقاصد تحلیلی تسهیل کند.
موثرترین معماری Data warehousing قادر خواهد بود که تمام دادههای قابل استفاده در سیستم گسترده مدیریت اطلاعات را ترکیب کند یا حداقل بر همه آنها دستیابی پیدا کند.
این کارها با استفاده از تکنولوژیهایی مناسبی جهت پیوسته کردن مدیریت بانکهای اطلاعاتی صورت میگیرد (نظیر Oracle، Sybase، MS SQL SERVER).