در این گزارش ما یک روش جدید برای خوشه بندی داده ها بر پایه الگوریتم ژنتیک همراه با بازچینی مجدد ژن های هر کروموزوم در هر مرحله تکرار ارائه می دهیم.این امر باعث حذف انحطاط در مراکز خوشه ها در هر مرحله می شود در این گزارش یک عملگر ترکیب (crossover) جدید تعریف شده است که از میزان شباهت بین کروموزوم ها استفاده می کند.احتمال ترکیب و جهش در هر مرحله به صورت وفقی محاسبه می شود تا الگوریتم کمتر در بهینه های محلی گیر کند این الگوریتم به همراه الگوریتم K-mean و دیگر الگوریتم های تکاملی بر روی داده های UCI اعمال شده است و نتایج با همدیگر مقایسه شده است نتایج نشان می دهد الگوریتم ارایه شده کارایی و انعطاف بالاتری دارد.
خوشه بندی یکی از مهمترین تکنیک های یادگیری بدون سرپرستی می باشد که در آن داده ها به صورت بردار هایی در فضای چند بعدی در گروه هایی ( خوشه ) بر اساس شباهت ویژگی هایشان دسته بندی می شوند این گروه بندی بر اساس دو شرط انجام می شود 1-همگنی در گروه ِداده ها در هرگروه شبیه به هم باشند 2-غیر همگنی در گروهها ِیعنی داده ها در گروههای متفاوت شبیه به هم نباشند ما داده ها را به عنوان نقاطی در فضای چند بعدی در نظر می گیریم که بعد همان تعداد ویژگی ها می باشد بنابراین object ها اشاره دارند به نقاط و پایگاه داده به این صورت نمایش داده می شود X={x1,x2,x3,..,xk} در جایی که xk متعلق به Rd می باشد که k تعداد داده ها و d نشان دهنده بعد می باشد.[1,2]
در مجموع می توان گفت که کلاسترینگ دو روش اصلی دارد روشهای مرتبه ای و روشهای جداسازی(مجزا) به طوری که روش مرتبه ای یک درخت مرتبه ای از کلاسترهای تودرتوبه عنوان یک درخت یکنواخت.
الگوریتمهای کلاسترینگ مجزا تولید می کنند Cدسته (کلاستر)از مجموعه داده هادر جایی که C تعداد کلاستر ها می باشد اغلب غیر معمول است که ما درجه تمایل کلاسترها را با بهینه سازی تابع هدف پیدا کنیم. از جمله این روش ها k-means جزء این دسته می باشد. به طوری که در این روش دسته بندی داده ها بستگی به میزان شباهت یا عدم شباهت که عموما دلالت دارد به فاصله بین داده یعنی هرچه داده به هم نزدیک تر باشند در یک کلاستر قرار می گیرند این فاصله ها به صورت متری در نظر گرفته می شوند با افزایش بعد این فاصله ها بنابراین این فاصله ها را در هر ویژگی به صورت مجزا اندازه گیری می کنیم اصل در این روش این است که فاصله ها را تا مرکز کلاستر اندازه می گیریم از انواع فاصله ها می توان فاصله اقلیدسی را نام برد .یک فرمول عمومی در مسائل کلاسترینگ بدین ترتیب می باشد که مجموعه ای از n نقطه در فضای d بعدی ویک عدد صحیح k و اتخاذ یک مجموع از مراکز کلاسترها در فضای Rd به طوری که هدف این است تا مجموع فواصل اقلیدسی نفاط از نزدیکترین مرکز مینیمم شود(SSE) که دارای روابطی به شکل[1] :