بیائید بازار استخراج داده ها را از نقطه نظر منحنی اقتباسی تکنولوژی در نظر بگیریم ایمنی به اقتباس کنندگان اولیه ، از تکنولوژی لبه یادگیری برای دستیابی به مزیت رقابتی استفاده میکنند ؛ هنگامیکه تکنولوژی تکامل مییابد ، شرکتهای بیشتری آن را اقتباس میکنند ، و در یک حالت تجارت زمانی و عادی درج مینمایند . همچنین مناطق عملی بودن ابزاهای استخراج داده ها بزرگتر و بزرگتر میشوند. به عنوان مثال ، تکنولوژی وایت اوک ( یک شرکت استخراج داده ها در مریلند) از جانب کمیسیون فدرال الکترون، مجوز فروش سیستم گچین ماینر Capain Miner را کسب کرده است که بی نظمیدر دخالتهای سیاسی فدرال را کشف میکند . نورتل، یک بسته کشف کلاهبرداری را توسعه داده است به نام سوپر اسلوت فراود ادوایسور ، که از تکنولوژیهای شبکه عصبی استفاده میکند .
صنعت ابزار استخراج داده ها ، برخلاف تکنولوژیهای استخراج داده ها ، در مرحله عدم تکامل قرار دارد و میکوشد تا بازار را تعیین نماید . و وجودش را تائید کند . به همین دلیل است که در مییابیم بازار ابزارهای استخراج داده ها تحت تاثیر موارد زیر قرار دارد:
ادغام پیوسته و مداوم ابزار ها با اتکاء به تکنولوژیهای مکمل و به عنوان مثال OLAP
ظهور کاربردهای بسته بندی شده عمودی و یا اجزاء استخراج داده ها برای توسعه کاربرد .
استراتژیهای بسیار اقتباس شده شرکت بین فروشندگان ابزار استخراج داده ها و فروشندگان تهیه کنندگان راه حل جامع و ادغام کننده های سیستم ها : فروشندگان مقیاس مؤسسه ، همانند IBM NCR ، اوراکل ، میکروسافت ) به عنوان مثال ، اوراکل چندین شریک متعدد استخراج داده ها به عنوان بخشی از او را کل ویرهاوس اینتیشیتیو از جمله آنگاسن دیتا مایند ، دیتاپکیج اینفورمیشن دیسکاوری ، SRA , SPSS اینترنشنال و تینکینگ ماشینز را انتخاب کرده است .
اصول طبقه بندی ابزار های استخراج داده ها
ما میتوانیم کل بازار ابزارهای استخراج داده ها را به سه گروه اصلی تقسیم نمائیم ؛ ابزارهای دارای هدف کلی ، ابزارهای ادغام شده استخراج داده ها DSSOLAP ، و ابزارهای به سرعت در حال رشد و برای کاربرد.
ابزارهای هدف کلی بخش بزرگتر و کامل تر بازار را اشغال میکند . آنها بنا به تعریف و برای کاربرد نیستند و حوزه آنها از نظر ماهیت افقی است . این ابزار شامل موارد زیر میشود .
SAS اینترپراز ماینر
IBM اینتلیجنت مایننر
یونیکا PRW
SPSS کلمنتین
SGI ماین ست
اوراکل داروین
آنگاس نالج سیکر
بخش ابزار مرکب یا اداغام شده استخراج داده ها بر شرط تجاری بسیار واقعی و اجباری داشتن ابزار چند منظوره تقویت تصمیم تاکید میکند که گزارش مدیریت ، پردازش تحلیلی روی خط ، و قابیت های استخراج داده ها در یک قالب کاری عادی را فراهم میکند . نمونه های این ابزار های مرکب شامل کاکنوس سیناریو و بیزینس آبجکت میشود.
بخش ابزارهای ویژه کاربرد ، به سرعت در حال حرکت است ، و فروشندگان در این فضا ، میکوشند تا خود را با ارائه راه حلهای تجاری به جای جستجوی تکنولوژی برای یک راه حل ، از سابرین متمایز نمایند . حوزه این ابزار ، بنا به تعریف از نظر ماهیت عمودی است . در بین این ابزارها ، موارد زیر قرار دارند:
KD1 ( متمرکز بر خرده فروشی است )
حق انتخابها و انتخابها ( بر صنعت بیمه متمرکز است )
HNC ( بر کشف کلاهبرداری متمرکز است )
یونیکا مدل 1 ( بر بازاریابی متمرکز است )
ارزیابی ابزار : صفات و اسلوب شناسی ها
کل این عوامل ارائه یک توصیف بهینه از ابزارهای استخراج طولانی تر موجود را مشکل ساخته است . بنابراین . بطور کلی ابزارهای استخراج داده ها را میتوان با استفاده از صفات زیر ، توصیف نمود :
تکامل محصول و ثبات و استحکام شرکت . به دلیل عدم تکامل کلی بازار تجاری برای ابزارهای استخراج داده ها ، این مقوله محصولاتی را توضیح میدهد که برای جنبش از چند سال وجود داشته اند.
سکوها و معماری. سکوهای متنوع از نظر تجاری موجود را تقویت کنید ، مدل چند تأبیری مشتری / خادم را تقویت کنید . هدف قابلیت سنجش، دسترسی به سرعت نزدیک به خطی و سنجش زمان اجرا ، به عنوان میزان داده ها ( اندازه بانک اطلاعاتی ) ، تعداد متغیرها ، و تعداد کاربران متصل به هم میباشد که در حال رشد هستند .
تداخلهای داده ها ، قابلیت ابزار برای دسترسی به بانکهای اطلاعاتی ارتباطی ، فایلهای یکنواخت و سایر فورمتها.
قابلیتهای استخراج داده ها از جمله تکنیکها ، الگوریتم ها و کاربردهای تحلیلی ، تکنیک های استخراج داده ( ANN ، CART ، ایفاء قانون و غیره ) با تداخل عادی کاربر که ابزار میتواند آن را تقویت نماید، توانایی ایجاد و مقایسه چندین مدل ؛ و توانایی برای تقویت تعدادی از انواع مختلف تجزیه و تحلیل از جمله طبقه بندی ، پیشگویی و کشف اتحاد.
ایجاد داده ها قابلیت تغییر شکل و طبقه بندی متغیرهای پیوسته ، ایجاد متغیرهای جدید ، استفاده از تاریخها و زمان ، استفاده از ارزشهای از دست رفته و غیره.
مدل (خصوصیت تفسیر ، ارزیابی ، صف بندی) . این مقوله ، ابزار را از نظر قابلیت انجام کارهای زیر ، ارزیابی میکند:
شناسایی مدل بطور اتوماتیک یا دستی ، توسط کاربر
توضیح نتایج و تعریف مقایسهای اعتمادی یعنی احتمالات طبقه بندی ، حدود اعتماد و غیره
ارزیابی نتایج مدل با درجه و تناسب
گزارش دخالت و سهم هر متغیر در مدل ، گزارش درجه افزایش و غیره
صف بندی مدل برای امتیاز بانکهای اطلاعاتی منبع
استخراج مقرارت از مدل
دسته بندی قوانین استخراج شده در یک شکل استاندارد ( به عنوان مثال کد SQL، اظهارات روشی )
عملکرد
اعتبار پیشگویی اعتبار بر اساس نرخ خطای نمونه پیشگویی میباشد ؛ اعتبار مدل را میتوان با درجه افزایش اندازه گیری نمود.
کارایی پردازش . اجزای بهینه زمان اجرای الگوریتم ها
تداخلهای کاربر . این مقوله در مییابد آیا ابزار یک کاربر مبتدی و یا کارشناس را تقویت میکند یا نه و موارد زیر را تقویت مینماید:
الگوهای سنجش تجاری . قابلیت ایجاد الگوهای از قبل بسته بندی شده ، برای تقویت بسته های تجاری ویژه ( به عنوان مثلا بازاریابی هدف ، امتیازدهی اعتبار، کشف کلاهبرداری ).
تداخل متادیتا . قابلیت تقویت وظیفه طراحی معنایی ؛ دستیابی به متادیتا برای کدگذاری جداول مقادیر مقوله ای ، دستیابی به قوانین استخراج ، تغییر شکل و مهاجرت به تعریف دیدگاه تجاری خروجی مدل
قابلیت اداره
کنترل پیچیدگی . این یکی از روشهای اصلاح تصمیم مدل است ، بنابراین مدل را بیشتر قابل اداره مینماید . به عنوان مثال ، استفاده از پارامترهای بسیار آزاد منجر به تناسب بیش از حد میگردد ( قبلاً بحث شد ) ؛ این پیچیدگی را میتوان با زوال وزن ، کنترل نمود . الگوریتم های درخت تصمیم CART از فاز شاخه زنی یا ضریب برای کاهش پیچیدگی مدل درخت استفاده مینمایند .
سختی . اعتبار درخت و موجود بودن به قابلیت یا بهبود سریع از یک نقطه ضعف . استفاده از اجزاء کلیدی به منظور ادغام در قالب کاری مدیریت سیستم ها ( به عنوان مثال BMCpatrol ، Tivolitme10 و غیره.)
مرسوم سازی . قابلیت ابزار برای ایجاد یک معماری باز، انعطاف پذیر و قابل گسترش با تداخلهای برنامه ریزی کاربرد منتشر شده و نقاط خروجی کاربر که امکان این کاربردهای تقویت تصمیم، ویژه کاربر و همینطور ادغام با سایر کاربردها را فراهم میآورد.
هر گاه که ممکن باشد، ما ابزارهایی که از این مقوله ها استفاده میکند را مورد بحث قرار خواهیم داد. با این وجود ، به دلیل این که هدف این فصل ، ایجاد یک بررسی کلی از ابزرهای برجسته و استخراج داده ها میباشد و صفات یا خصوصیات عملکرد که میتوانیم تنها با انجام یک ارزیابی جامع از محصول با استفاده از دادهها بدست آوریم ، در این بحث در نظر گرفته نخواهد شد . دیگر این که فروشنده یک معیار منتشر شده یا اطلاعات بررسی کاربر در مورد عملکرد ابزار را فراهم نماید.