از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد.
همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود.
این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نکرد.
حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در پایگاه داده های مربوط اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است (چنان که در عصر حاضر گفته می شود).
درطول دهه گذشته باپیشرفت روزافزون کاربرد پایگاه داده ها،حجم داده های ثبت شده به طور متوسط هر5سال 2برابرمی شود.
دراین میان سازمان هایی موفقند که بتوانند حداقل 7٪داده هایشان راتحلیل کنند.
تحقیقات انجام یافته نشان داده است که سازمانها کمترازیک درصد داده هایشان رابرای تحلیل استفاده می کنند.
به عبارت دیگردرحالی که غرق درداده ها هستند تشنه دانش می باشند.
بنابراعلام دانشگاه MIT دانش نوین داده کاوی (Data mining) یکی ازده دانش درحال توسعه ای است که دهه آینده راباانقلاب تکنولوژی مواجه می سازد.این تکنولوژی امروزه دارای کاربرد بسیاروسیعی درحوزه های مختلف است به گونه ای که امروزه حدومرزی برای کاربرد این دانش درنظرنگرفته وزمینه های کاری این دانش راازذرات کف اقیانوس ها تااعماق فضامی دانند.
امروزه بیشترین کاربرد داده کاوی دربانکها، مراکزصنعتی وکارخانجات بزرگ، مراکزدرمانی وبیمارستانها ،مراکز تحقیقاتی ،بازاریابی هوشمند وبسیاری ازموارددیگرمی باشد.
داده کاوی پل ارتباطی میان علم وآمار،علم کامپیوتر، هوش مصنوعی ،الگو شناسی،فراگیری ماشین وبازنمایی بصری داده می باشد.داده کاوی فرآیندی پیچیده جهت شناسایی الگوها ومدل های صحیح، جدید وبه صورت بالقوه مفید، درحجم وسیعی ازداده می باشد، به طریقی که این الگوها ومدلها برای انسانها قابل درک باشد.داده کاوی به صورت یک محصول قابل خریداری نمی باشد،بلکه یک رشته علمی وفرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داده ها به معنی کنکاش داده های موجود درپایگاه داده وانجام تحلیل های مختلف برروی آن به منظوراستخراج اطلاعات می باشد.
داده کاوی فرآیندی تحلیلی است که برای کاوش داده ها( معمولاً حجم عظیمی ازداده ها) صورت می گیرد ویافته هابا به کارگیری الگوهایی ،احرازاعتبارمی شوند.هدف اصلی داده کاوی پیش بینی است.وبه صورت دقیق ترمی توان گفت:
کاوش داده ها شناسایی الگوهای صحیح ،بدیع، سودمند وقابل درک ازداده های موجود دریک پایگاه داده است که بااستفاده ازپردازش های معمول قابل دستیابی نیستند.
" کاوش داده ها شناسایی الگوهای صحیح ،بدیع، سودمند وقابل درک ازداده های موجود دریک پایگاه داده است که بااستفاده ازپردازش های معمول قابل دستیابی نیستند." فصل دوم مفاهیم داده کاوی 2.1 فرایند داده کاوی فرآیند داده کاوی شامل سه مرحله می باشد: 1- کاوش اولیه 2- ساخت مدل یاشناسایی الگو باکمک احرازاعتبار/ تایید 3- بهره برداری مرحله 1: کاوش معمولاً این مرحله باآماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها، تبدیل داده ها وانتخاب زیرمجموعه هایی ازرکوردها با حجم عظیمی ازمتغییرها( فیلدها) باشد.
سپس باتوجه به ماهیت مساله تحلیلی، این مرحله به مدل های پیش بینی ساده یا مدل های آماری وگرافیکی برای شناسایی متغییرهای مورد نظروتعیین پیچیدگی مدل ها برای استفاده درمرحله بعدی نیازدارد.
مرحله 2: ساخت واحرازاعتبارمدل این مرحله به بررسی مدل های مختلف وگزینش بهترین مدل باتوجه به کارایی پیش بینی آن می پردازد.شاید این مرحله ساده به نظربرسد.اما این طورنیست.تکنیک های متعددی برای رسیدن به این هدف توسعه یافتند.و" ارزیابی رقابتی مدل ها" نام گرفتند.
بدین منظورمدل های مختلف برای مجموعه داده های یکسان به کارمی روند تاکارایی شان باهم مقاسیه شود.
سپس مدلی که بهترین کارایی راداشته باشد انتخاب می شود.
این تکنیک ها عبارتندازStacking، Boosting،Bagging و Meta- Learning مرحله 3: بهره برداری آخرین مرحله مدلی راکه درمرحله قبل انتخاب شده است، درداده های جدید به کارمی گیرد تا پیش بینی های خروجی های موردانتظار راتولیدنماید.داده کاوی به عنوان ابزارمدیریت اطلاعات برای تصمیم گیری، عمومیت یافته است.
اخیراً توسعه تکنیک های تحلیلی جدید دراین زمینه مورد توجه قرارگرفته است.(مثلاً Classification Tree) اما هنوزداده کاوی مبتنی براصول آماری نظیر(EDA: Exploratory Data Analysis)می باشد.
بااین وجود تفاوت عمده ای بین داده کاوی وEDA وجود دارد.
داده کاوی بیشتربه برنامه های کاربردی گرایش داردتا ماهیت اصلی پدیده، به عبارتی داده کاوی کمترباشناسایی روابط بین متغییرها سروکاردارد.
2.2 دو مفهوم اساسی در داده کاوی Bagging: این مفهوم برای ترکیب رده بندی های پیش بینی شده ازچند مدل به کارمی رود.فرض کنید که قصددارید مدلی برای رده بندی پیش بینی بسازید ومجموعه داده ها مورد نظرتان کوچک است.شمامی توانید نمونه هایی (باجایگزینی ) راازمجموعه داده ها انتخاب وبرای نمونه های اصلی ازدرخت رده بندی استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهیدرسید.سپس برای پیش بینی باکمک درخت های متفاوت به دست آمده ازنمونه ها یک رای گیری ساده انجام دهید.رده بندی نهایی رده بندی ای خواهدبود که درخت های مختلف آن راپیش بینی کرده اند.
Boosting: این مفهوم برای تولید مدل های چند گانه (برای پیش بینی یارده بندی ) به کارمی رود.Boosting ترکیبی از classifierها راتولید خواهدکرد.
2.3 اساس داده کاوی اساس داده کاوی برمبنای سه فعالیت اصلی ذیلاً به آنها اشاره می شود: 1- هدف داده کاوی: داده های بی ارزش وعوامل بیرونی حذف می شوند.
2- فشرده سازی دادها : این عمل به وسیله کد گذاری داده ها صورت می گیرد.
3- کشف الگوها: الگوهای موجود درپایگاه داده ها ازقبیل طبقه بندی ،الگوهای زنجیری و.....
کشف می شوند.
انتخاب یک سیستم داده کاوی سیستم های داده کاوی درروش وعملکرد متفاوتند وحتی ممکن است باانواع کاملا متفاوتی ازمجموعه داده ها مطابق باشند.برای انتخاب یک سیستم داده کاوی باید شرایط زیردرنظرگرفته شوند: نوع داده ها: که می تواند متنی، رابطه ای، زنجیری، فضایی و....باشد.
ساختار وویژگی های سرور ومشتری منبع داده ها روش وعملکرد سیستم قابلیت اندازه گیری استفاده ازابزارهای دیداری زبان سیستم گرافیکی بودن محیط سیستم 2.4 عوامل ایجاد داده کاوی سیل اطلاعات معاملات کامپیوتری،اطلاعات علمی،اطلاعات پزشکی اشخاص، بازیها،شبکه جهانی وب کاربرداطلاعات به عنوان کالا رشدانبارهای داده ونیازبه استخراج اطلاعات مفید راهکارهای فناوری جدید اطلاعات تحقیقات وپیشرفت درعلوم ازجمله هوش مصنوعی 2.5 زیربنای داده کاوی تکنیک های داده کاوی نتیجه ی تحقیقات گسترده وبلندمدتی است که درطول سالها برای افزایش بازدهی تجاری موسسات بکاربرده می شدند.تحقیقات دراین زمینه اززمانی آغازشدکه برای نخستین باراطلاعات تجاری هرسازمان،برروی سیستم های ذخیره سازی آن زمان که ازنوع مغناطیسی بودند،ذخیره شدند.
این رشته تحقیقات باتوسعه وپیشرفت سیستم های اطلاعات که قابلیت ذخیره حجم بیشتری ازداده ها رافراهم می کردندوهمچنین ازسرعت بسیاربالاتری درذخیره سازی وبازیابی اطلاعات برخورداربودند، اهمیت بیشتری یافت.
روش های دسترسی تصادفی یارندم به اطلاعات وپیدایش روشهای حرکت درمیان داده ها،خصوصاً به صورت بلادرنگ، فناوری داده کاوی رامتحول ساخت.
روش های داده کاوی برپایه های زیر استوار هستند: گردآوری حجم عظیمی داده کامپیوترهای چند پردازنده ی قدرتمند الگوریتمهای داده کاوی 2.6 عناصرداده کاوی توصیف وکمک به پیش بینی دوکارکرد اصلی داده کاوی هستند.تحلیل داده مربوط به مشخصه های انتخابی متغییرها؛ ازگذشته وحال،ودرک الگوهای مثالی ازتحلیل توصیفی است.برآورد ارزش آینده یک متغییر وطرح ریزی کردن روندمثالی پیشگویانه داده کاوی است.
برای عملی شدن هریک ازدوکارکرد فوق الذکرداده کاوی، چند گام ابتدایی اما مهم باید اجراشوند که ازاین قرارند: انتخاب دادها پاک سازی داده ها غنی سازی داده ها کدگذاری داده ها بادارابودن هدف کلی درمطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است.رکوردهای لازم می تواند ازانبارداده ها ویابانک اطلاعاتی عملیاتی استخراج شود.این رکوردهای داده جمع آوری شده، اغلب ازآنچه آلودگی داده ها نامگذاری شده است رنج می برند وبنابراین لازم است پاکسازی شوند تاازیکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده وکنترل سازگاری دامنه به عمل آید ممکن است داده های گرد آوری شده ازجنبه های خاصی ناقص یاناکافی باشد.دراین صورت داده های مشخصی باید گردآوری شوند تابانک اطلاعاتی اصلی راتکمیل کنند منابع مناسب برای این منظورباید شناسایی شوند.
این فرآیند مرحله غنی سازی داده ها راتکمیل می کند .یک سیستم کدگذاری مناسب معمولاً جهت انتقال داده ها به فرم ساختاربندی شده جدید، متناسب برای عملیات داده کاوی تعبیه می شود.
2.7 مراحل داده کاوی داده کاوی درطی 10 مرحله انجام می گیرد.این مراحل به ترتیب عبارتنداز: 1- شناسایی هدف: دراین مرحله مشخص می شود که کاربربه چه چیزی می خواهددست یابد وچه نوع وچه سطحی ازاطلاعات رامی خواهد ازپایگاه داده ها به دست آورد به طوری که دروقت اوصرفه جویی شود.
2- انتخاب داده: پس ازاین که هدف تعیین شد باید داده انتخاب شود.درانتخاب داده باید شرایطی درنظرگرفته شود ازقبیل این که: آیافیلد مشترکی دربین داده های انتخاب شده وجود دارد که بتواند برای لینک شدن به یک پایگاه داده ی دیگرمورد استفاده قرارگیرد؛ آیا داده ای که قراراست کاوش شود قابل دسترسی هست، آیاپس ازاین که مجموعه داده ها تهیه شد درآن انباشتگی وجود داردخیر؛ چقدرازاین داده ها به هدف مورد به هدف نظرماهستند؟
3- آماده سازی داده ها: پس ازسازماندهی وانتخاب داده ها باید فرمت قابل استفاده داده ها مشخص شود.
هدف ازاین مرحله تولید یک مجموعه آماده ازداده های کاوش شده است.
شناسایی متغییرهای زاید وپارازیت ها دریک مجموعه داده ها ورفع این متغییرها ازاهداف این مرحله است.
4- ارزیابی داده ها: دراین مرحله ساختار داده ها باتوجه به شرایطی ارزیابی می شوند که این شرایط عبارتندازاین که: ویژگی وساختار پایگاه داده ها چیست؛ شرایط کلی مجموعه داده ها چیست؛ توزیع مجموعه دادها به چه صورت است؛ آیا ساختار داده ها بانیازاستفاده کنندگان مطابقت دارد؟
5- قالب بندی پاسخ: منظوراین است که پاسخ به چه فرمتی ارائه شود.
به شکل تصویر،گزارش، ساختار درختی، شبکه عصبی و....
6- انتخاب ابزار: دراین مرحله ابزار مناسب برای داده کاوی انتخاب می شود.درموقع انتخاب ابزار مناسب برای داده کاوی باید درنظربگیریم که آیا این ابزارباکامپیوترکاربرمطابقت دارد یاخیر؟
یک ابزار داده کاوی باید به گونه ای باشد که نتایج تجزیه وتحلیل آن برای کاربر قابل درک باشد.همچنین باید بدانیم که ابزاری که انتخاب می کنیم چه نوع پاسخهایی راتولید می کند.
باید به این نکته توجه کنیم که هیچ ابزاری به تنهایی قادربه تهیه پاسخ نیست؛ بلکه مجموعه ای ازابزارها به همراه مجموعه ای ازبرنامه ها مورد نیازاست.
7- مدلسازی: دراین مرحله فرآیند داده کاوی شروع می شود.
این مرحله شامل جستجوی الگوها دریک مجموعه داده ها وطبقه بندی ،تصمیم گیری ،جمع آوری وارزشیابی داده ها می باشد.
مواردی رابایددرنظرگرفت ازقبیل: میزان خطاهای مدل تا چه حداست؟
آیا این کدل ها قابل پذیرش هستند؟
آیا امکان پیشرفت آنها وجود دارد؟
آیا برای یک مدل به داده های بیشتروروش های مختلفی نیازاست؟
آیا نیازاست که مجموعه داده ها تست شوند.....
8- اعتبار سازی یافته ها: این مرحله شامل تست کردن الگوهاست.
درتجزیه وتحلیل داده کاوی باید درمورد نتایج تجزیه وتحلیل بامدیر،طراح،مجری طرح، تحلیل گرومهندسان بحث شود.
به این دلیل که مطمئن شویم که یافته هها صحیح ومطابق بااهداف ماهستند.
همچنین بررسی کنیم که آیا نتایج قابل دسترسی هستند؟
آیا نیازاست که به مراحل قبلی بازگردیم تا نتایج بهتری کسب کنیم؟
آیا ابزارهای دیگرداده کاوی می توانند مورد استفاده قرارگیرند به طوری که همانند نتایج استخراج شوند و.....
9- ارائه نتایج: این مرحله گزارش نهایی رابرای کاربرتهیه می کند.
این گزارش باید با استناد به کل فرآیند داده کاوی باشد.باارائه نتایج به کاربرمشخص می شود که آیا این یافته ها مطابق بااهداف اوهستند؟
وآیا داده های بیشتری می توانند باعث پیشرفت تجزیه وتحلیل شوند؟
10- استفاده ازنتایج: هدف نهایی داده کاوی استفاده ازنتایج کشف شده برای ایجاد یک موقعیت جدید وبهتراست.
2.8 وظایف داده کاوی باتوجه به مباحث مطرح شده می توان وظایف داده کاوی رابه صورت زیرخلاصه کرد: توصیف: یافتن الگوهایی که داده ها راتوصیف می کنند.
پیش بینی : استفاده ازمتغییرها برای پیش بینی ارزش های ناشناخته دیگرمتغیرها توضیح: اگرکاربری دریک زمان واحد به دواثردسترسی داشته باشداین طور نتیجه گیری می شود که ارتباطی بین دواثروجوددارد.بنابراین اگرکاربردیگری تنها به یکی ازاین دواثردسترسی داشته باشد ازطریق داده کاوی پیش بینی می شود که این کاربراحتمالاً به اثراول نیزعلاقمنداست.
2.9 فنون داده کاوی فنون داده کاوی یک گروه نا متجانس راشکل می دهند چراکه هرتکنیکی که بتواند بینش جدیدی ازداده ها رااستخراج کند می تواند داده کاوی به حساب آید.
برخی از ابزارهای رایج به کارگرفته شده تحت عنوان داده کاوی عبارتنداز: ابزارهای پرس وجو فنون آماری مصورسازی پردازش تحلیلی پیوسته یادگیری مبتنی برمورد درختان تصمیم گیری قوانین وابستگی شبکه های عصبی الگوریتم ژنتیکی شکل2.1 فنون داده کاوی ابزارهای پرس وجو: ابزارهای متداول زبان پرس وجوی ساختاربندی شده درابتدا برای انجام تحلیل های اوایه به کارگرفته شدند که می تواند مسیرهایی برای تفحص بیشترنشان دهد.
فنون آماری: مشخصات اصلی داده ها لازم است باکاربرد انواع مختلفی ازتحلیل های آماری شامل جدول بندی ساده ومتقاطع داده ها ومحاسبه پارامترهای آماری مهم به دست آید.
مصورسازی: با نمایش داده ها درقالب نمودارها وعکس ها مانند نمودار پراکندگی ،گروه بندی داده ها درخوشه های متناسب تسهیل می شود.
استنباط عمیق ترممکن است با به کارگیری تکنیک های گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: ازآن جا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روش های متعددی برای ترکیب دادن آنها وجود دارد.
ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک می کند وابزارهای ابتدا، انتهای پیوسته برای انجام پرس وجو ایجاد می کند.اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
یادگیری مبتنی برمورد: این تکنیک مشخصات گروه های داده ها را تحلیل می کند وبه پیش بینی هرنهاد واقع شده درهمسایگی شان کمک می کند.الگوریتم هایی که استرتژی یادگیری تعاملی رابرای کاوش دریک فضای چندین بعدی به کارمی گیرند برای این منظور مفیداست.
درختان تصمیم گیری: این تکنیک بخش های مختلف فهرست پاسخ های موفق داده شده مربوط به یک پرس وجو رابازیابی می کند وبه این ترتیب به ارزیابی صحیح گزینه های مختلف کمک می کند.
شکل 2.2 نمونه ای از یک درخت تصمیم قوانین وابستگی:اغلب مشاهده می شود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای ازداده های معین وجوددارد.
بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته وبه کارگرفته می شود.
شبکه های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش رابراساس کاربرد وارزیابی نتایج بهبود می بخشد.
الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است.
به این ترتیب که با یک گروه یا خوشه شروع می شود ورشدش درآینده راباحضور دربرخی مراحل فرآیند محاسبه احتمال جهش تصادفی،همان طور که درتکامل طبیعی فرض می شود طرح ریزی می نماید.این تکنیک به چند روش می تواند عملی شود.وترکیب غیرقابل انتظار یانادری راازعواملی که درحال وقوع بوده ومسیرمنحنی طراحی داده ها را تغییر می دهند ،منعکس می کند.
گام نهایی فرآیند داده کاوی، گزارش دادن است.
گزارش شامل تحلیل نتایج وکاربردهای پروژه درصورت به کارگیری آنها است.ومتن مناسب جداول وگرافیک ها رادرخود جای می دهد.بیشتراوقات گزارش دهی یک فرآیند تعاملی است که تصمیم گیرنده با داده ها درپایانه کامپیوتری بازی می کند وفرم چاپی برخی نتایج واسطه محتمل رابرای عملیات فوری بدست می آورد.
داده کاوی درتولید چهارنوع دانش زیرمفیداست: 1- دانش سطحی (کاربرد های SQL ) 2- دانش چند وجهی (کاربردهای OALP) 3- دانش نهان( تشخیص الگووکاربردهای الگوریتم یادگیری ماشینی) 4- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی) 2.10 معماری داده کاوی یک سیستم کشف دانش براساس داده کاوی باید دارای مراحل تکراری زیرباشد: پاکسازی داده ها( ازبین بردن نویز وناسازگاری داده ها) یکپارچه سازی داده (چندین منبع داده ترکیب می شود.) انتخاب داده ها( داده های مرتبط باآنالیزازپایگاه داده بازیابی می شوند.) تبدیل کردن داده ها(تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی وهمسان سازی) داده کاوی( فرآیند اصلی که روال هوشمند برای استخراج الگوها ازداده ها به کارگرفته می شوند.) ارزیابی الگو(برای مشخص کردن الگوهای صحیح ومورد نظربه وسیله معیارهای اندازه گیری) ارائه دانش( یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربراستفاده می شود.) هرمرحله داده کاوی باید باکاربر یا پایگاه دانش تعامل داشته باشد.الگوهای کشف شده به کاربر ارائه می شوند ودرصورت خواست اوبه عنوان دانش به پایگاه دانش اضافه می شوند.
توجه شود که برطبق این دیدگاه داده کاوی تنها یک مرحله ازکل فرآیند است،البته به عنوان یک مرحله اساسی که الگوهای مخفی راآشکار می سازد.
2.11 تکنیک های مختلف داده کاوی تکنیک های مختلف داده کاوی رامی توان براساس نوع عملیاتی که انجام می دهند به دودسته " پیش بینی کننده " و" تشریح کننده " تقسیم کرد.
تکنیک های پیش بینی کننده باساخت مدلی برای پایگاه داده وظیفه پیش بینی موارد ناشناخته رابرعهده دارند.درحالی که تکنیک های تشریح کننده الگوهایی قابل فهم ازداده ها رابرای انسان کشف می کنند.
طبقه بندی : هدف ازطبقه بندی ،مشخص کردن ویژگی هایی است که بتوان توسط آن، کلاسهای مختلف راازیکدیگرمتمایز کرد طبقه بندی درداده کاوی طی دو مرحله انجام می گیرد.ابتدا ازروی داده های قدیمی، کلاس های مختلف تشخیص داده شده وسپس تعلق داشتن داده های جدید به کلاس های موجود، پیش بینی می شود.طبقه بندی جزوتکنیک های یادگیری باناظراست زیرابادراختیارداشتن یک مجموعه داده آموزشی (به عنوان راهنما) داده های جدید راطبقه بندی می کند.این روش جزوروش های پیش بینی کننده به حساب می آید.
شکل 2.3 طبقه بندی در داده کاوی فصل سوم کاربرد های داده کاوی 3.1 معرفی داده کاوی به عنوان ده علم برترکه منجربه ایجاد تحول درعصرتکنولوژی می شوددرتمام زمینه ها کاربرد دارد و اصولاً هرجایی که داده وجودداشته باشد داده کاوی نیزمعنا می یابد.داده کاوی یک رشته جدید باکاربردهای وسیع وگوناگون است ازقبیل امورتجاری ومالی وفعالیت شرکت ها، امورپزشکی ،تجزیه وتحلیل مربوط به DNA ،کشف ناهنجاری ها واسناد جعلی، ارتباطات ازراه دور،ورزش وسرگرمی ،کتابداری واطلاع رسانی وامانت ،مدیریت بحران ،مدیریت وکشف فریب، تحلیل شکست ،مدیریت روابط مشتری ،مدیریت دانش ،بازاریابی ،بانکداری ،صنعت بیمه، حمل ونقل،پزشکی ،متن کاوی، شبکه کاوی ،صوت کاوی ، تصویرکاوی، وب کاوی ، سیستم هواشناسی، سیستم ثبت احوال، شناخت الگوها وکشف روابط پنهان میان داده ها، پیش بینی، کشف داده های خارج ازالگو به منظورکشف تقلب، کنترل کیفیت، کنترل مهندسی وپیش بینی، صنعت خرده فروشی ،تحلیل مالی و....
3.2 کاربرد داده کاوی درکتابخانه ها ومحیط های دانشگاهی داده کاوی درابتدا ازحوزه تجارت برخاست اما کاربردهای آن درسایرحوزه هایی که به گردآوری حجم وسیعی ازداده ها می پردازند که دستخوش تغییرات پویا نیزمی گردد؛ مفید شناخته شد.بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام ، بیمارستان وهتل ازاین نمونه اند.
انتظارمی رود که استفاده ازداده کاوی دربخش آموزش به طور عام امکانهای جدید بسیاری ارائه دهد.برخی کاربردهای داده کاوی درکتابخانه ها وقسمت اداری آموزش درذیل مورد بحث قرارگرفته اند.
عملیات کتابداری به طورکلی شامل مدیریت مدارک، ارائه خدمات واموراداره ونگهداری است.هرکدام ازاین کارکردها باانواع مختلفی ازداده ها سروکاردارند وبه طورجداگانه پردازش می شوند.اگرچه انجام تحلیل ترکیبی براین مجموعه های داده نیز می تواند افق تازه ای رابگشاید که به طرح خدمات جدید وتحول رویه ها وعملیات جاری کمک نماید.
جدول یک برخی ازکاربردهای ممکن داده کاوی راکه می تواند درکتابداری مفیدباشد ارائه می کند.
جدول 3.1 کاربردهای داده کاوی درکتابخانه ها داده کاوی می تواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه ونیزکشف روندهای عمومی که به تصمیم گیری کمک می کنند، استفاده شود.برای مثال سوال می تواند چنین باشد: امکان این که امانت گیرندگان منابع رایک هفته بعدازتاریخ موعد برگردانند تانامه های یادآوری کمتری فرستاده شود چقدراست؟
یامیزان اشتراک مورد انتظاربرای نشریات بین المللی انتخاب شده برای سال آینده چقدراست؟
درک الگوی استفاده کلی مجلات الکترونیکی یاتحلیل درخواستهای اعضاء برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی ازکشف روندهای عمومی اند.دامنه تحلیل استنادی هم می تواند بااستفاده ازداده کاوی گسترش داده می شود.
3.3 کاربرد داده کاوی درفعالیت شرکت ها: امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان درکانون توجه آنان قراردارند استفاده می شود ازجمله فروشگاهها،شرکت های مالی ،ارتباطاتی، بازاریابی وغیره .استفاده ازداده کاوی دراین شرکت ها کمک می کند تاارتباط عوامل داخلی ازجمله قیمت،محل قرارگیری محصولات ،مهارت کارمندان رابا عوامل خارجی ازجمله وضعیت اقتصادی ،رقابت دربازارومحل جغرافیایی مشتریان کشف نمایند.
ازآنجایی که هوش مصنوعی یکی ازاصلی ترین عناصرداده کاوی می باشد وبا توجه به اینکه به کمک سیستم های کامپیوتری وپایگاه های داده روزانه به میزان داده ها افزوده می شود،بنابراین استفاده هوشمندانه ازدانش بالقوه ای که دراین داده نهفته است دردنیای رقابتی امروزه برای شرکت ها حیاتی می باشد.
داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان وشناخت سلیقه های عمومی آنها رابرای شرکت ها ممکن می سازد.
3.4 کاربرد داده کاوی درمدیریت وکشف فریب: کشف فریب تلفنی، کشف فریب بیمه ای واتومبیل، کشف حقه های کارت اعتباری ،کشف تراکنش های مشکوک مالی(پولشویی) 3.5 کاربرد داد کاوی درصنعت خرده فروشی: ازکاربردهای کلاسیک داده کاوی است که می توان به مواردی نظیرتعیین الگوهای خرید مشتریان،تجزیه وتحلیل سبد خرید بازار، پیشگویی میزان خرید مشتریان ازطریق پست (فروش الکترونیکی) اشاره کرد.
3.6 داده کاوی درمدیریت ارتباط مشتری: درسالهای اخیر فرهنگ تجارت به پیشرفت هایی نایل گشته است.مطابق باآن روابط اقتصادی مشتریان به شیوه های بنیادی واساسی درحال تغییراست.شرکتها به منظور نظارت براین گونه تغییرات نیازمند ارایه راه حلها هستند.ظهور وپیدایش اینترنت درتغییر جهت مرکزتوجه بازاریابی نقش بسزایی داشته است.چنان چه اطلاعات برخط ( ON LINE) بیشتردردسترس قرارگیرد موجب آگاهی وهوشیاری بیشترمشتریان می گردد.آنها درجریان تمام آن چه ارائه وپیشنهاد می شود قرارمی گیرند وتقاضای بهترین ها رادارند.
برای ازعهده برآمدن درچنین شرایطی باید سیستم هایی که بتواند به طوردقیق نسبت به مشتریان واکنش نشان دهد به کاررود.جمع آوری آمارمشتریان وداده های رفتاری آنها این هدف اصلی ودقیق راممکن می سازد.این نوع هدف گیری به یک برنامه ریزی عالی هنگام ایجاد یک رقابت سخت وبه مشخص کردن مشتریان بالقوه هنگام عرضه محصولات جدید کمک می کند.
مدیریت ارتباط با مشتری: مدیریت ارتباط بامشتری یک فرآیند تجاری است که تمام جوانب مشخصه های مشتری راآدرس دهی می کند، دانش مشتری رابه وجود می آورد،روابط رابامشتری شکل می دهد وبرداشت آنهاراازمحصولات یاخدمات سازمان ایجاد می کند.مدیریت ارتباط بامشتری توسط چهارعنصر ازیک چارچوب ساده تعریف شده است: دانش ،هدف،فروش وخدمات.
مدیریت ارتباط بامشتری بادرنظرگرفتن این که چه محصولات یاخدماتی،به چه مشتریانی ،درچه زمانی وازطریق چه کانالی عرضه شود،بهبودرادرپی خواهدداشت.این مدیریت ازاجزای مختلفی تشکیل شده است.
پیش ازاین که فرآیند آن آغازشود،شرکت باید اطلاعات مشتری رادراختیار داشته باشد.این اطلاعات می تواند ازداده های داخلی مشتریان ویاازداده های منابع خارجی خریداری شده به دست آید.
برای داده های داخلی منابع مختلفی وجوددارد مانند پرسشنامه ها،وبلاگ ها، سوابق کارت اعتباری و......
منابع داده خارجی یابانکهای داده خریداری شده مانند آدرسها،شماره تلفن ها، پروفایل های بازدید ازوب سایت ها ،کلیدی برای به دست آوردن دانش بیشتری ازمشتری است.
بیشترشرکت ها،بانک های داده ای عظیمی شامل داده های بازاریابی، منابع انسانی ومالی رادارهستند.بنابراین سرمایه گذاری درزمینه انبارداده،یکی ازاجزای حیاتی دراستراتژی مدیریت ارتباط با مشتری است.
پس از تهیه وتخصیص منابع داده،سیستم مدیریت ارتباط بامشتری باید بابه کارگیری ابزارهایی مانند داده کاوی،داده ها راتجزیه وتحلیل کند.اعم ازاین که شرکت تکنیک های آماری سنتی رابه کارمی برد یا یکی ازابزارهای نرم افزاری مانند داده کاوی را،کارشناسان نیازبه فهم داده های مشتری وروابط تجاری دارند.
شکل 3.1 داده کاوی در مدیریت ارتباط با مشتری 3.7 کاربرد داده کاوی درپزشکی: تعیین نوع رفتاربابیماران وپیشگویی میزان موفقیت اعمال جراحی،تعیین میزان موفقیت روشهای درمانی دربرخوردبا بیمای های سخت 3.8 وب کاوی: اینترنت بزرگترین بانک اطلاعاتی موجود دردنیااست.اطلاعاتی که تقریباً هر18 ماه دوبرابرمی شوند.وبه طوردائم درحال تغییرند.موتورهای جست وجو از مهم ترین ابزارهای کاوش دروب است.امااین جست وجو گرها به بسیاری ازمنابع دسترسی ندارندومعمولاً اطلاعات نامناسبی به کاربران ارائه می دهند.چراکه متکی به کلمات کلیدی هستند وبه ندرت موتورجست وجویی پیدامی شود که براساس معانی کلمات جست وجو کند.
وب کاوی به تکنیک های خودکار بازیابی،استخراج وارزیابی اطلاعات ازپرونده ها وسرویس های تحت وب یه منظورکشف دانش اشاره دارد.
وب کاوی ازسه دیدگاه وب رامورد کاوش قرارمی دهد: 1- محتوا: کشف دانش ازمحتوا،فایل ها وپرونده های موجوددروب که شامل صوت،تصویر،متن ودیگرانواع چندرسانه ای می شود.
2- ساختار: برای پی بردن به ارتباط بین لینک ها وپرونده های درونی دریک وب سایت، معمولاً یک گراف دویا سه بعدی برای نمایش این ساختاربه کارمی رود.درنتیجه می توان میزان دسترسی به صفحات ولینک های مختلف یک سایت رابه دست آوردوازاین نتایج برای مدیریت بهترسایت بهره برد.
3-استفاده وکاربرد: داده هایی که توسط تعامل کاربران باوب تولید شده است،مورد بررسی قرارم یگیرد.این داده ها شامل شناسه کاربر،درخواست های کاربر،ورودها وخروج های یک سرورازسایت و.....است.ازنتایج این کاوش می توان برای بهبود ارتباط باکاربران ،تجارت الکترونیکی وشناسایی مشتریان استفاده کرد.این که هرکسی معمولاً چه کلماتی را جست وجومی کند وبه چه اطلاعاتی بیشترعلاقمنداست،می تواند درنمایش نتایج جست وجو های اوموثرباشد.
3.9 تصویرکاوی: حجم زیادی ازداده امروزه به شکل تصاویرذخیره می شوند.تصاویر ماهواره های نقشه برداری وعکس های دیجیتالی نمونه هایی ازاین نوع داده هاهستند.شناسایی شباهت ها،الگوها،وابستگی وتوالی تصاویر،وظیفه تصویرکاوی است.مقایسه عکس های ساختمان های یک شهرویافتن الگوهای مشترک دراین ساختمان ها،می توانند درشناسایی الگوی معماری آن شهرموثرباشد.
کاویدن تصاویر به دوصورت انجام می شود: 1- براساس مشخصات متنی مانند نام،حجم ونوع که مشخصاتی متنی هستند.
2- براساس محتوای درون عکس.
این خصوصیات محتوایی شامل رنگ،روشنایی وتیرگی رنگ،شدت وضعف رنگ، بافت عکس ،شکل هندسی عناصرتصویر،موقعیت مکانی عناصرتصویرواندازه آنها و....
شامل می شود.یک مورد پرکاربرد تصویرکاوی ،جست وجوی تصاویر نه براساس نام آنها بلکه براساس محتوای آنهاست فصل چهارم مثال تفهیمی در مورد داده کاوی 4.1 مثال تفهیمی درمورد داده کاوی یکی ازنمونه های بارزداده کاوی رامی توان درفروشگاه های زنجیره ای مشاهده نمود،که درآن سعی می شود ارتباطمحصولات مختلف هنگام خرید مشتریان مشخص گردد.فروشگاههای زنجیره ای مشتاقند بدانند که چه محصولاتی بایکدیگربه فروش می روند.
برای مثال طی یک عملیات داده کاوی گسترده دریک فروشگاه زنجیره ای درآمریکای شمالی که برروی حجم عظیمی ازداده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولاً آب جو نیزخریداری می کنند.همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند غالباً گلدان کریستالی نیزمی خرند.
نمونه مشابه عملیات داده کاوی رامی توان دریک شرکت بزرگ تولیدوعرضه پوشاک دراروپا مشاهده نمود،به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند،درهمان روزیا روزهای آینده گیره کراوات مشکی رنگ نیزخریداری می کنند.
به روشنی این مطلب قابل درک است که این نوع استفاده ازداده کاوی می تواند فروشگاه هارادربرگزاری هوشمندانه فستیوال های فروش ونحوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگراستفاده ازداده کاوی درزمینه فروش رامی توان دریک شرکت بزرگ دوبلاژوتکثیروعرضه فیلم های سینمایی درآمریکای شمالی مشاهده نمود که درآن عملیات داده کاوی،روابط مشتریان وهنرپیشه های سینمایی ونیزگروه های مختلف مشتریان براساس سبک فیلم ها(ترسناک، رمانتیک، حادثه ای و....) مشخص گردید.
بنابراین آن شرکت به صورت کاملاًهوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی رابراساس علاقه مشتریان به هنرپیشه های مختلف وسبک های سینمایی شناسایی کند.
استفاده ازداده کاوی درزمینههای مالی وبانکداری به شناخت مشتریان پرخطروسودجو براساس معیارهایی ازجمله سن،درآمد،وضعیت سکونت،تحصیلات،شغل وغیره می انجامد.
بانک اطلاعاتیکاربرد متصورگردآوری منابعبرای تعیین نقاط قوت وضعف مجموعهاستفاده ازمجموعهبرای ایجاد رابطه بین خواننده،منابع کتابخانه وزمان مشخصی ازارسالامانت بین کتابخانه ایبرای تحلیل سفارشهای پاسخ داده شده وسفارشهای دریافت شدهداده های بخش امانتبرای پیش بینی روند بازگشت منابعداده های هزینهبرای نشان دادن منابع مالی بکارگرفته شده