بسیاری از فروشگاهها پس از گذشت یک ربع قرن از آغاز فعالیت، هنوز مشتری وفادار خود را دارند.
این وفاداری تصادفی نیست.
اداره کنندگان این فروشگاهها به سلایق و نیازهای مشتریان خویش واقف شده اند و توان مالی خرید آنها را می شناسند.
وقتی کسی از آنها راهنمایی بخواهد پاسخ آنها براساس دانش اندوخته شان در مورد ذائقه و بودجه آن مشتری و همچنین دانش شان در باره محصولات خودشان خواهد بود.
افرادی که به این فروشگاه رفت و آمد دارند در مورد کالاهای آن فروشگاه چیزهای زیادی می دانند.
هر چند این دانش یکی از دلایل آنها برای ایجاد خرید از آنجاست و به همین دلیل به فروشگاه های دیگر نمی روند ولی داشتن اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجا می کند و به یک مغازه مشابه دیگر در آنطرف خیابان و روبروی همین فروشگاه نمی روند و برخوردار بودن این فروشگاه از اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجام می کند .
یک مغازه مشابه دیگر می تواند در آنطرف خیابان و روبروی همین مغازه باز شود ولی ماهها و حتی سالها طول می کشد تا آنها به این سطح از دانش در باره مشتریانشان دست یابند.
طبیعتاً تجارتهای کوچکی که مدیریت خوبی دارند می توانند به نحوه ایجاد رابطه با مشتریانشان پی ببرند.
آنها با گذشت زمان در باره مشتریانشان به چیزهای بیشتر و بیشتری پی خواهند برد و از آن دانش برای خدمت بهتر به مشتریان استفاده خواهند نمود و نتیجه کار، مشتریان وفادار و خرسند و تجارتهای سودآور خواهد بود.
شرکتهای بزرگ با صدها هزار یا میلیونها نفر مشتری از مزیت برقراری روابط شخصی حقیقی با تک تک مشتریانشان بی بهره اند.
این موسسات عظیم باید به وسایل دیگری برای برقراری رابطه با مشتریانشان تکیه نمایند.
آنها باید یاد بگیرند که از آنچه که به وفور دارند یعنی داده هایی که از طریق تعامل با تک تک مشتریان به دست آمده است نهایت بهره را ببرند.
این کتاب در مورد تکنیکهای تحلیلی بحث میکند که برای تبدیل داده های مشتریان به دانش در باره مشتریان استفاده میشود.
مدیریت روابط تحلیلی با مشتریان
شکی نیست که لازم است موسسات بزرگ نیز مانند تجارتهای خدمات مدار و کوچک از منافع برقراری روابط یک به یک با مشتریانشان بهره مند گردند.
مدیریت روابط با مشتری موضوع گسترده ای است که در کتابها و کنفرانسهای زیادی در مورد آن بحث شده است.
تمرکز این کتاب بر نقشی است که داده کاوی می تواند در بهبود مدیریت روابط با مشتری از طریق افزایش توان موسسات برای برقراری روابط با مشتریانشان ایفا کند.
در تمامی صنایع، شرکتهای آینده نگر به سمت این هدف حرکت می کنند که تمام مشتریان را به صورت فردی درک نمایند و از این شناخت برای تسهیل تجارتی استفاده نمایند که مشتری می خواهد با آنها انجام دهد به جای اینکه با رقبایشان همین تجارت را برقرار نماید.
این موسسات یاد می گیرند که ارزش هر مشتری را در نظر بگیرند تا تشخیص دهند که کدام یک از مشتریان ارزش سرمایه گذاری و صرف تلاش مداوم را دارند و دور کدام یک را باید خط کشید.
این تغییر نگرش و تمرکز بر مشتریان فردی بجای تمرکز بر بخشهای وسیع بازار نیازمند تغییر در کل شرکت است و مطمئناً به بخشهای بازاریابی، فروش و پشتیبانی مشتریان هم سرایت می نماید.
برای بیشتر شرکتها استقرار یک تجارت حول روابط با مشتریان تغییری بنیادین است.
بانکها همواره به حفظ تعادل بین هزینه ای که به سرمایه گذاران در بانک می پردازند و سود حاصل از وامهای پرداختی به وام گیرندگان توجه می کنند.
شرکتهای مخابرات بر نوع و چگونگی ارتباطات تلفنی مشتریان توجه دارند.
شرکتای بیمه بر تعادل پرداخت خسارات بیمه گذاران و مدیریت سرمایه گذاریهای انجام یافته با پول حال از دریافت حق بیمه ها متمرکز شده اند.
داده کاوی کمک می کند تا نهادی محصول مدار به نهادی مشتری مدار تبدیل شود.
داده کاوی به تعبیری دقیق تر به مجموعه ای از ابزارها و تکنیکها اطلاق می شود و یکی از چند تکنولوژی لازم برای حمایت از شرکتی مشتری مدار می باشد.
از منظری وسیعتر داده کاوی دیدگاهی است که مطابق آن اعمال تجاری باید براساس یادگیری باشند، دیدگاهی که در آن تصمیمات آگاهانه بهتر از تصمیمات بدون آگاهی هستند.
داده کاوی ، موثر واقع شود باید سایر نیازمندیهای مدیریت ارتباط با مشتریان نیز برآورده شود.
یک شرکت به منظور ایجاد رابطه ای یادگیرنده با مشتریان خود باید قادر باشد:
1.
متوجه آنچه مشتریانش انجام می دهند باشد.
2.
عملکرد شرکت و مشتریان شرکت در طول دورانهای مختلف را همیشه به یاد داشته باشد.
3.
از آنچه به یاد می آورد درس بگیرد.
4.
براساس آنجه یاد گرفته عمل کند تا مشتریانش سودآورتر باشند.
اگرچه تمرکز این کتاب بر گزینه سوم یعنی درس گرفتن از آنچه در گذشته رخ داده می باشد ولی باید گفت یادگیری در خلا اتفاق نمی افتد.
باید سیستمهای پردازش تعاملات برای پی بردن به تعاملات مشتریان، انبار داده ها برای ذخیره اطلاعات در مورد رفتارهای گذشته مشتریان و یک استراتژی برای رابطه با مشتری وجود داشته باشد تا آن برنامه ها را به مرحله عمل در آورد.
نقش سیستمهای پردازش تعاملات
یک تجارت کوچک با مشتریان خود روابطی را از طریق توجه به نیازهایشان، به یاد داشتن ترجیحاتشان و درس گرفتن از تعاملات گذشته برقرار می کند تا در آینده به آنها بهتر ارائه خدمات نماید.
چگونه یک شرکت عظیم می تواند مشابه این کار را انجام دهد.
وقتی این امکان هست که اغلب کارمندان آن شرکت هرگز به صورت شخصی با مشتریان رابطه نداشته باشند؟
حتی اگر تعامل با مشتری هم وجود داشته باشد ممکن است این روابط هر بار با فروشنده یا کارمند متفاوتی در مرکز تلفن برقرار شود.
پس چگونه شرکت می تواند به این تعاملات توجه کند.
آنها را به یاد آورد و از آنها درس بگیرد؟
چه چیزی می تواند جایگزین حس خلاق یک فروشنده شود که مشتریانش را با اسم و از روی چهره و صدا می شناسد و عادتها و ترجیحات آنها را به یاد می آورد؟
پاسخ این است که هیچ چیز نمی تواند جایگزین شود ولی این مسئله بدان معنی نیست که نمی توان سعی و تلاش کرد.
از طریق به کارگیری هوشمندانه تکنولوژیهای اطلاعات حتی بزرگترین شرکتها هم می توانند به نتایج شگفت انگیزی برسند.
در شرکتهای تجاری عظیم، اولین گام یعنی توجه به آنچه مشتری انجام می دهد از قبل و به صورت خودکار در آمده است.
سیستمهای پردازش تعاملات همه جا هستند و ظاهراً داده هایی را در مورد همه چیز جمع آوری می کنند.
نتایج ثبت شده توسط دستگاههای اتوماتیک سخن گو، سرورهای وب، اسکنرهای بارکد کالاهای فروش رفته وموارد مشابه ، تولید کننده داده های خام برای داده کاوی هستند.
امروزه همه ما در طول زندگی جریان مداومی از اطلاعات تعاملی را ایجاد می کنیم.
وقتی شما گوشی تلفن را بر می دارید تا یک کالا سفارش دهید جزئیات تماس شما در اداره تلفن محلی ثبت می شود و بطور مثال، زمان تماس، شماره تلفن و عنوان شرکتی را که با آن تماس گرفته اید نشان می دهد.
در شرکتی که با آن تماس گرفته اید نیز اطلاعات مشابهی نظیر مدت مکالمه شما ثبت می شود.
این داده ها با سایر اطلاعاتی که متشکل از نحوه پرداخت صورتحساب و اسم و آدرس شما برای تهیه یک رسید است جمع می گردد.
در شرکتهای تهیه کاتالوگها نیز تماس شما دوباره به همراه اطلاعاتی در باره کاتالوگ مخصوصی که شما از آن سفارش داده اید و هر طرح تشویقی دیگری که به آن پاسخ داده اید ثبت می شود.
وقتی پاسخ دهندگان به تماس شما، شماره کارت اعتباری شما و تاریخ انقضای آنرا سوال نموده اند، این اطلاعات هم بلافاصله به سیستم بررسی کارتهای اعتباری داده می شود تا صحت اطلاعات گرفته شده ثابت گردد و این موارد هم البته ثبت می گردد.
در یک چشم به هم زدن این تعامل بانکی که صادر کننده کارت اعتباری شماست برقرار می شود و در صورتحساب ماهیانه بعدیتان این مسئله ثبت خواهد شد.
وقتی سفارش می دهید آن سفارش با شماره اقلام، اندازه و رنگ آن وارد سیستم سفارشات کاتالوگها می شود و اطلاعات بیشتری را در سیستم کامپیوتری اداره پست تولید می کند جایی که کالاهای ارسالی با پست توسط واحد انبارها بعنوان فرستنده ودر خانه شمابعنوان گیرنده بررسی می شود تا با بررسی وب سایت حامل کالا ببینید کار در چه مرحله ای از پیشرفت است.
امروزه همه ما در طول زندگی جریان مداومی از اطلاعات تعاملی را ایجاد می کنیم.
در شرکتهای تهیه کاتالوگها نیز تماس شما دوباره به همراه اطلاعاتی در باره کاتالوگ مخصوصی که شما از آن سفارش داده اید و هر طرح تشویقی دیگری که به آن پاسخ داده اید ثبت می شود.
وقتی پاسخ دهندگان به تماس شما، شماره کارت اعتباری شما و تاریخ انقضای آنرا سوال نموده اند، این اطلاعات هم بلافاصله به سیستم بررسی کارتهای اعتباری داده می شود تا صحت اطلاعات گرفته شده ثابت گردد و این موارد هم البته ثبت می گردد.
وقتی سفارش می دهید آن سفارش با شماره اقلام، اندازه و رنگ آن وارد سیستم سفارشات کاتالوگها می شود و اطلاعات بیشتری را در سیستم کامپیوتری اداره پست تولید می کند جایی که کالاهای ارسالی با پست توسط واحد انبارها بعنوان فرستنده ودر خانه شمابعنوان گیرنده بررسی می شود تا با بررسی وب سایت حامل کالا ببینید کار در چه مرحله ای از پیشرفت است.
این اطلاعات تعاملی برای داده کاوی تولید و جمع آوری نشده اند بلکه برای برآورده کردن نیازهای عملی شرکت ایجاد شده اند.
با این وجود همه این اطلاعات حاوی مطالب مفیدی در مورد مشتریان هستند و می توان همگی را با موفقیت کاوش کرد.
شرکتهای مخابرات از اطلاعات مربوط به جزئیات تماسها برای دستیابی به شماره تلفن ساکنانی استفاده کرده اند که الگوهای تماسشان شبیه الگوهای تجارتی است تا مخابرات بتواند خدماتخاصی را به افرادی که در منازل خویش کسب و کاری راه انداخته اند عرضه نماید.
شرکتهای تهیه کاتالوگها از سفارشات گذشته برای تصمیم گیری در مورد شمولیت هر کدام از مشتریان در ارسال بسته های پستی حاوی کاتالوگ آینده استفاده می کنند.
یک شرکت پست از تغییر رخ داده در الگوی تقاضای مشتریان خود در طول تعطیلی موقتی شرکت رقیب استفاده نمود تا سهم خویش را در تجارت توزیع بسته های مشتریانشان محاسبه نماید.
سوپر مارکتها از داده های حاصل از اسکن بارکد کالاهای فروش رفته برای تصمیم گیری در مورد چاپ نوع خاصی از کوپن تشویقی برای انواع مشتریان استفاده نموده اند.
خرده فروشان اینترنتی از خریدهای قبلی استفاده کرده اند تا تعیین کنند چه کالایی را در زمانی که مشتریان برای بازدید مجدد از سایتشان باز می گردند عرضه کنند.
این سیستم های تعاملی نقطه تماس مشتریان هستند؛ جایی که اطلاعات در مورد رفتار مشتریان برای اولین بار وارد شرکت می شود.
در چنین حالتی این سیستم ها در واقع گوش و چشم شرکت هستند.
نقش ذخیره سازی داده ها شرکتهای مشتری مدار هر اطلاعاتی در مورد هر تعاملی با مشتری یا ارباب رجوع را به عنوان فرصتی برای یادگیری قلمداد می کنند.
هر تماسی را با پشتیبانی مشتریان، هر تعاملی را با برگه های فروش، هر نوع سفارش کاتالوگ، هر بازدید از وب سایت شرکت، جزو این تعاملات قلمداد می شود.
ولی یادگیری نیازمند چیزی بیش از گردآوری ساده داده هاست .
در واقع بیشتر شرکتها صدها گیگابایت یا ترابایت از داده ها را در باره مشتریانشان جمع آوری می کنند بدون اینکه چیزی یاد بگیرند.
داده ها جمع می شوند زیرا برای برخی از اهداف عملیاتی چون کنترل فهرستها یا صورتحسابها لازم هستند.
وقتی هدف مورد نظر به دست آمد اطلاعات روی یک لوح فشرده ذخیره می شود و یا اصلاً حذف می گردد.
برای اینکه یادگیری رخ دهد باید داده های حاصل از منابع متعدد از جمله اطلاعات موجود در صورتحسابها، داده های اسکنرها، فرمهای ثبت نام، تقاضانامه ها، جزئیات تماسها، نقد کردن کوپنها و معاملات با هم جمع آوری و به روشی مفید و ثابت دسته بندی شوند.
این مرحله را ذخیره سازی داده ها می نامند.
ذخیره سازی داده ها به شرکتها اجازه می دهد آنچه در مورد مشتریان جلب توجه میکند را به یاد بیاورند.
یکی از مهمترین جنبه های ذخیره سازی داده ها توانایی دنبال کردن رفتار مشتری در طول زمانهای مختلف است.
الگوهای مشتریان در طول زمان مشخص می گردد.
در ذخیره سازی داده ها لازم است داده های صحیح قدیمی به کار گرفته شود تا داده کاوی بتواند این روندهای مهم را کشف کند.
بسیاری از الگوهای مهم در مدیریت روابط با مشتری تنها با گذشت زمان ظاهر می شود.
آیا میزان خرید مشتریان روند صعودی و یا نزولی را طی می کند؟
مشتریان چه کانال ارتباطی را ترجیح می دهند؟
مشتریان به چه تبلیغاتی پاسخ می دهند؟
سالها قبل یک شرکت تهیه کاتالوگها وقتی به اهمیت حفظ داده های رفتار گذشته مشتریان پی برد که برای اولین بار اطلاعات مربوط به بیش از یک سال بسته های پستی کاتالوگها و پاسخهایی که ازمشتریانشان گرفته بودند را جمع آوری و نگهداری نمود.
آنها دریافتند که بخشی از مشتریان هستند که تنها از طریق کاتالگ و در زمان عید سفارش داده اند.
با داشتن شناخت در مورد آن بخش از مشتریان، آنان در مورد اینکه چه کری انجام دهند تصمیماتی گرفتند.
آنها می توانستند روشهایی را برای افزایش علاقه این گروه از مشتریان به سفارش دادن در بقیه سال نیز ایجاد نمایند.
آنها می توانستند نسبت کلی تعداد پاسخهای دریافتی به تعداد کل بسته های پستی کاتالوگهای ارسال شده را از طریق نفرستادن بسته های پستی برای این بخش در بقیه طول سال افزایش دهند.
بدون بررسیهای بیشتر نمی توان گفت که کدامیک پاسخ درست است ولی بدون داشتن داده های گذشته هرگز به این نتیجه نمی رسیدند که باید سوالاتی بپرسند.
یک انباره داده خوب، امکان دسترسی به اطلاعاتی را فراهم می کند که از داده های تعاملی فراهم شده اند و به شکلی کاربردی تر از آنچه در سیستمهای عملیاتی که از آنها داده ها به دست آمده اند نگهداری می شوند.
در حالت ایده آل داده های ذخیره سازها از منابع زیادی جمع آوری می گردد.
انباره داده هر شرکت یکی از مهمترین منابع داه ها برای مدیریت روابط تحلیلی با مشتریان است.
نقش داده کاوی انباره داده برای شرکت مثل یک حافظه عمل می کند ولی حافظه بدون هوش و آگاهی فایده چندانی ندارد.
آگاهی به ما اجازه می دهد در حافظه های قبلی خود جستجو کنیم، به الگوهای خاصی توجه نمائیم، قوانینی را ایجاد کنیم، به ایده های جدیدی برسیم، سوالهای درستی را مطرح کنیم و پیش بینی هایی در باره آینده انجام دهیم.
در این کتاب به ابزار و تکنکیهایی اشاره می شود که به افزایش گاهی در ذخیره سازی داده ها کمک می نماید.
این تکنیکها به شرکتها امکان استفاده از انبوه داده هایی را که از طریق تعاملات با مشتریان و ارباب رجوعها به منظور شناخت بهتر آنها فراهم شده میدهد.
احتمال وفادار ماندن چه مشتریانی زیاد است و چه کسی وفادار نخواهد بود؟
چه محصولاتی را برای چه مشتریان بالقوه ای باید عرضه نمود؟
چه چیزی تعیین می کند که آیا یک فرد به محصول خاصی پاسخ می دهد یا نه؟
چه وقت باید شعبه بعدی را ایجاد نمود؟
محصول یا خدمات بعدی که این مشتری می خواهد کدام است؟
پاسخ به سوالاتی از این دست در بطن داده های شرکت قرار دارد و کشف آنها به ابزارهای قوی داده کاوی نیاز دارد.
ایده اصلی داده کاوی برای مدیریت روابط با مشتری این است که داده های قدیمی حاوی اطلاعاتی هستند که در آینده به درد خورده و مفید از آب در می آیند چرا که رفتار مشتریان در داده های شرکت نشان داده شده تصادفی نیستند بلکه نیازهای متفاوت، ترجیحات، تمایلات و عملکردهای مشتریان را نشان می دهند.
هدف داده کاوی یافتن الگوهایی در داده های پیشین است که آن نیازها، ترجیحات و تمایلات را روشن تر می نماید.
این حقیقت که الگوها همواره واضح نیستند و علائم دریافت شده از مشتریان گاهی مبهم و گیج کننده هستند کار را سخت تر می نماید.
جدا کردن علائم از چیزهای به درد نخور یعنی تشخیص الگوهای اساسی در بطن متغیرهای به ظاهر تصادفی، یکی از نقشهای مهم داده کاوی است.
در ادامه، این کتاب بعضی از تکنیکهای مهم داده کاوی را بررسی می کند و نقاط ضعف و قوت هر یک را در زمینه مدیریت روابط با مشتری معین می نماید.
نقش استراتژی مدیریت روابط با مشتری برای کارایی داده کاوی باید داده کاوی در زمینه ای رخ دهد که به سازمان اجازه تغییر رفتار بر اساس نتیجه حاصل از یادگیری را بدهد.
داده کاوی باید در بطن استراتژی روابط با مشتری شرکت قرار گیرد تا برنامه علمیاتی که بایستی انجام گیرد مشخص شود و این عمل در نتیجه آنچه از طریق داده کاوی یاد گرفته شده صورت می پذیرد.
وقتی مشتریان کم اهمیت معین شدند چگونه باید با آنها رفتار کرد؟
آیا برنامه هایی برای ترغیب علاقه آنها جهت افزایش اهمیتشان وجود دارد؟
یا بهتر است هزینه خدمات رسانی به آنها را کاهش داد؟
اگر برخی از کانالها به طور مداوم مشتریان سودآوری با خود می آورند چگونه می توان منابع را به سمت آن کانالها سوق داد؟
داده کاوی یک ابزار است و همانطور که در مورد همه ابزارها صدق می کند بیشتر از آنکه لازم باشد بفهمیم داده کاوی چگونه کار می کند، لازم است بفهمیم که چگونه از آن باید استفاده کرد.
داده کاوی فرایند تصمیم سازی را بانجام میرساند و تصمیم گیری را به مدیران می سپرد.
در واقع داده کاوی پیشنهاد می دهد و نهایتا مدیران آن تجارب تصمیم می گیرند.
بطور مثال تجزیه مشکلات یک شرکت ارائه دهنده خدمات تلفن همراه، اغلب نشان می دهد احتمال لغو اشتراک مشترکینی که الگوهای تماسشان با الگوی پیش بینی و طراحی شده توسط شرکت هماهنگی ندارد بیشتر است.
آنانی که از تلفن بیش از زمانی که در طرحشان قید شده استفاده می کنند هزینه این زمانهای اضافی را می پردازند و اغلب اشتراک خود را لغو می کنند.
آنانی که از کل زمان تخصیص یافته به آنها استفاده نمی کنند هزینه دقایق استفاده نشده را می پردازند و احتمالاً جذب پیشنهاد رقیبی می شوند که قول ارائه طرح ارزان تر را می دهد.
این نتایج نشان می دهد که باید کار موثری کرد تا مشتریان را به سمت طرحی سوق داد که دقیقا مطابق خواسته آنان است، ولی این تصمیم آسانی نیست.
تا زمانی که مشتریان در طرح نامناسب برای آنان همچنان مشترک هستند اگر آنها را به حال خودشان رها کنیم برای شرکت سودآور ترند.
قطعا تجزیه و تحلیل های بیشتری لازم است، احتمالاً بخشی از این مشتریان نسبت به قیمت حساس نیستند و می توان آنها را به حال خودشان گذاشت.
یک تحلیل مناسب داده کاوی می تواند به حل این مسائل کمک کند.
داده کاوی می تواند با بکارگیری تکنیک مناسب در اتخاذ تصمیمات آگاهانه تر کمک کند ولی نهایتاً این خود مدیران آن تجارت هستند که باید تصمیم نهایی را اتخاذ کنند.
داده کاوی چیست؟
داده کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده ها به منظور کشف الگوها و قوانین معنی دار اطلاق می شود.
با توجه به رویکرد این کتاب، به جهت ایجاد درکی آسانتر مثال ها و نمونه های عملی ذکر شده از مقوله بازاریابی و مدیریت ارتباط با مشتریان انتخاب شده است و فرض کتاب حاضر این است که هدف داده کاوی قادر ساختن یک شرکت به بهبود بازاریابی، فروش و عملکردهای پشتیبانی از مشتریان از طریق درک بهتر مشتریانش می باشد.
با این وجود به یاد داشته باشید که ابزارها و تکنیکهای داده کاوی بیان شده در این کتاب در همه زمینه های دیگر نیز یکسان عمل می کنند و کافی است شما آن را به موضوعات خود مرتبط سازید.
براساس اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده کاوی متصور نبوده و مرز آن را از اعماق اقیانوس ها تا بیکران فضا می دانند.
در حقیقت هیچ کدام از الگوریتم های داده کاوی در ابتدا با کاربردهای تجاری در ذهن به وجود نیامدند.
داده کاوهای تجاری از یک سری تکنیکهای وام گرفته شده از آمار و علوم کامپیوتر استفاده می کنند.
انتخاب مجموعه ای از تکنیکها برای به کارگیری در موقعیت خاص بستگی به ماهیت عمل داده کاوی، ماهیت داده های موجود و مهارتها و ترجیحات داده کاوان دارد.
داده کاوی در دو نوع هدایت شده و غیر هدایت شده ظاهر می شود.
داده کاوی هدایت شده دارای هدفی خاص و از پیش تعیین شده است که بدنبال الگویی خاص میگردد در حالیکه هدف داده کاوی غیر هدایت شده یافتن الگوها یا تشابهات بین گروههایی از اطلاعات بدون داشتن هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده می باشد.
هر دو نوع داده کاوی در فصول بعدی تشریح خواهد شد.
داده کاوی عمدتاً با ساختن مدلها مرتبط است.
یک مدل اساساً به الگوریتم یا مجموعه ای از قوانینی گفته می شود که مجموعه ای از ورودی ها را (معمولاً به شکل زمینه هایی در پایگاه داده های شرکت) با هدف یا مقصد خاصی مرتبط می نماید.
رگرسیون ، شبکه های عصبی، درختهای تصمیم و بیشتر تکنکیهای داده کاوی دیگر که دراین کتاب آمده تکنیکهایی برای مدل سازی هستند.
یک مدل تحت شرایط درست می تواند منجر به بینش درست شود.
بطور مثال از مدلها برای ایجاد امتیازها استفاده می شود.
امتیاز نوعی بیان یافته های یک مدل به صورت عددی است.
از امتیازها می توان برای تهیه فهرستی از مشتریان از محتمل ترین فرد تا کم احتمال ترینشان در پاسخ به تبلیغات یک محصول جدید و یا محتمل ترین تا کم احتمال ترین فرد برای عدم باز پرداخت وام استفاده کرد.
حال سوال اینجاست که با داده کاوی چه کارهایی می توان انجام داد؟
بسیاری از مسائل محیط اطراف خود را می توان در قالب یکی از شش عمل زیر گنجاند: دسته بندی تخمین پیش بینی دسته بندی شباهت خوشه بندی توصیف و نمایه سازی سه مورد اول همگی مثالهایی از داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است.
دسته بندی شباهت و خوشه بندی جزء داده کاوی غیر هدایت شده هستد که در آن هدف، یافتن ساختاری در داده ها بدون توجه به یک متغیر هدف خاص است.
نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد.
در ادامه به هر کدام بصورت مختصر پرداخته می شود.
دسته بندی به نظر می رسد دسته بندی که یکی از معمولترین کارکردهای داده کاوی است یکی از واجبات بشر است.
ما برای شناخت و برقراری رابطه در باره دنیا به طور مداوم دسته بندی، قسمت بندی و درجه بندی می کنمی.
ما موجودات زنده را به شاخه ها، گونه ها و گل ها تقسیم می کنیم؛ مواد را به عناصر و حیوانات و انسان را به نژادها تقسیم می کنیم.
دسته بندی شامل بررسی ویژگیهای یک مورد جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده می باشد.
عمل دسته بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگیها که حاوی موارد از پیش دسته بندی شده هستند مشخص می گردد.
این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده استفاده نمود.
اشیایی که باید دسته بندی شوند معمولاً به وسیله اطلاعاتی در جدول پایگاه داده ها یا یک فایل ارائه می شوند و عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است.
مثالهایی از دسته بندی که با استفاده از تکنیکهای توصیف شده در این کتاب به دست آمده اند در زیر ارائه شده است: دسته بندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر انتخاب محتویات یک صفحه وب برای قرار دادن در شبکه اینترنت تعیین شماره تلفن های متصل به دستگاههای فکس تشخیص مدعیان حق بیمه که دریافت حق بیمه شامل آنها نمی شود در همه این مثالها تعداد محدودی از دسته ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آنها تخصیص دهیم.
(تکنیکهای درختهای تصمیم و نزدیکترین همسایه از جمله تکنیکهای دسته بندی می باشند.
شبکه های عصبی و تحلیل پیوندها نیز در شرایط خاصی عمل دسته بندی را انجام می دهند.
تخمین تخمین با نتایج مجزا که با ارقام پیوسته نشان داده شده اند سروکار دارد.
در تخمین داده های ورودی داده می شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می شود.
در عمل، تخمین اغلب برای انجام دسته بندی استفاده میشود.
یک شرکت کارتهای اعتباری که مایل است یک فضای تبلیغاتی را در پاکتهای صورتحساب به یک تولید کننده پوتین اسکی بفروشد باید مدلی دسته بندی تهیه کند که همه دارندگان کارتها را در یکی از دو دسته اسکی باز یا غیر اسکی باز قرار دهد.
روش دیگر ایجاد مدلی است که به هر دارنده کارت یک امتیاز تمایل به اسکی تخصیص می دهد.
این ارقام می تواند صفر ویک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن و یا نبودن دارنده کارت است.
عمل دسته بندی اکنون به ایجاد امتیازی آستانه ای منجر می گردد.
هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد.
روش تخمین فواید زیادی دارد که در آن اطلاعات منفرد را می توان مطابق تخمین به دست آمده مرتب نمود.
برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی برای ارسال پانصد هزار مورد آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است.
فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند.
پس به راحتی می توان به صورت تصادفی، تبلیغات را در صورتحسابهای پانصد هزار نفر منتخب از آن افراد قرارداد.
اگر از طرف دیگر هر دارنده کارت، امتیاز تمایل به اسکی را داشته باشد می توان تبلیغات را برای پانصد هزار از محتمل ترین کاندیداها فرستاد.
برخی دیگر از مثالهای تخمین در زیر آمده است: تخمین تعداد فرزندان در یک خانواده تخمین درآمد کل یک خانواده تخمین عمر یک مشتری تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه عمر مدلهای رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین میباشند.
پیش بینی پیش بینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات مطابق برخی از رفتارهای پیش بینی شده آینده یا ارقام تخمین زده آینده دسته بندی می شوند.
در عمل پیش بینی تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.
هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری که باید پیش بینی شود از قبل معلوم است و داده های پیشین برای آن وجود دارد.
از داده های پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده شده کنونی است استفاده می شود.
وقتی این مدل برای ورودی های کنونی به کار رفت نتیجه کار، پیش بینی رفتار آینده خواهد بود.
مثالهایی از پیش بینی که از طریق تکنیکهای داده کاوی بحث شده در این کتاب به آنها پرداخته می شود از این قرارند: پیش بینی اینکه کدام مشتریان در طول 6 ماه آینده بازار محصول ما را ترک خواهند کرد.
پیش بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمه سه جانبه یا پست صوتی خواهند شد.
بیشتر تکنیکهای داده کاوی که در این کتاب بیان شده اند در صورت وجود داده های مناسب برای استفاده در پیش بینی مناسبند.
انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
دسته بندی شباهت یا قوانین وابستگی عمل دسته بندی شباهت برای تعیین این است که چه چیزهایی با هم جورند.
مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند چیزی که آن را تحلیل سبد بازار می نامیم.
فروشگاههای زنجیره ای خرده فروشی می توانند از دسته بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه و یا در کاتالوگ استفاده کنند تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند.
از دسته بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دسته بندی محصولات یا خدمات استفاده کرد.
دسته بندی شباهت یک روش ساده برای ایجاد قوانین از داده هاست.
اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد را کنار هم بچینیم می توان دو قانون همبستگی ایجاد کرد: افرادی که شیر خشک نوزاد می خرند همچنین با احتمال 1P پوشک نوزاد را هم می خرند.
افرادی که پوشک نوزاد می خرند همچنین با احتمال 2P شیر خشک نوزاد را هم می خرند.
قوانین همبستگی در صول آینده به صورت مفصل مورد بحث قرار می گیرد.
خوشه بندی خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته می شود.
نقطه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دسته های از پیش تعیین شده اختصاص می یابد.
این دسته ها از طریق یافته های پژوهش های پیشین تعیین گردیده اند.
در خوشه بندی هیچ دسته از پیش تعیین شده ای وجود ندارد و داده ها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد.
بطور مثال خوشه های علائم بیماریها ممکن است بیماریهای مختلفی را نشان دهند و خوشه های ویژگیهای مشتریان ممکن است حاکی از بخشهای مختلف بازار باشد.
خوشه بندی معمولاً به عنوان پیش درآمدی برای انواع دیگری از داده کاوی یا مدل سازی به کار می رود.
به عنوان مثال، خوشه بندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد.
برای ایجاد یک قانون که در همه موارد کاربرد داشته باشد و به این سوال پاسخ که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند اول باید مشتریان را به خوشه های متشکل از افرادی با عادتهای مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می کند.
به تکنیک های یافتن خوشه ها را در فصول بعدی به طور مفصل پرداخته میشود.
نمایه سازی گاهی اوقات هدف داده کاوی تنها توصیف آن چیزی است که در یک پایگاه داده ای پیچید در جریان است.
نتایج نمایه سازی درک ما را از مردم، محصولات یا فرآیندهایی که داده ها را در مرحله اول تولید کرده اند افزایش می د هد.
توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد.
حداقل یک توصیف خوب نشان می دهد کی می توان انتظار یک توضیح مناسب را داشت.
شکاف جنسیتی مشهور در سیاست آمریکا مثالی از این دست است که چگونه این توصیف ساده که تعداد زنان حامی حزب دمکرات بیش از مردان است می تواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه نگاران، جامعه شناسان، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند.
درختهای تصمیم ابزار مفیدی برای نمایه سازی می باشد.
قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود.
چرا حالا؟
بیشتر تکنیکهای داده کاوی که در کتاب توصیف شده اند حداقل به عنوان الگوریتمهای آکادمیک از سالها یا دهه های قبل وجود داشته اند.
با این وجود، تنها در دهه اخیر است که داده کاوی تجاری نقش عمده ای را بازی کرده کرده است.
این مسئله به خاطر رخداد همزمان عوامل زیر است : داده ای که ایجاد شده است.
داده ای که ذخیره شده است.
توان محاسباتی بالا که قابل دسترسی است.
علاقه به مدیریت روابط با مشتریان فراوان است.
محصولات نرم افزاری داده کاوی وجود دارند.
داده ای که ایجاد شده است داده کاوی هنگامی بیشترین معنی را پیدا می کند که داده های زیادی وجود داشته باشد.
در حقیقت، اغلب الگوریتم های داده کاوی برای تولید مدل های دسته بندی، تخمین، پیش بینی و سایر کارکردهای داده کاوی نیازمند میزان زیادی از داده ها هستند.