خوشه بندی و روش های مختلف آن

یکی از مهمترین موضوعات داده کاوی خوشه بندی و روش های مختلف آن است. برای انجام خوشه بندی از الگوریتم های مختلفی استفاده می شود.

علاوه بر الگوریتم های خوشه بندی متنوع و زیادی که برای این کار وجود دارد از نرم افزارهای زیادی نیز برای خوشه بندی و داده کاوی استفاده می شود. قبل از خوشه بندی داده ها لازم است ابتدا بهترین روش را برای کارتان انتخاب کنید.

در این قسمت ابتدا خوشه بندی را تعریف نموده سپس روش های مختلف خوشه بندی را با هم بررسی می کنیم.

خوشه بندی یا کلاسترینگ داده ها ( clustering ) چیست ؟

در اطراف ما چیزهایی هستند که می توانیم آن را دسته بندی کنیم. به عنوان مثال اشیاء با رنگ آبی و اشیاء با رنگ قرمز را در دو گروه مختلف قرار دهیم. با این کار آنها را بهتر میتوان از هم تشخیص داد و برایمان واضح تر می شوند. مثلا چند دسته مختلف از برندهای ماشینی که آنها را دوست دارید.

در خوشه بندی ما با دو دسته یا بیشتر سروکار داریم. داده هایی که در هر خوشه قرار میگیرند با هم شباهت زیادی دارند. کلاسترینگ یا خوشه بندی که به آن تحلیل خوشه ای ( clustering analysis ) هم گفته می شود به طور کلی روندی است که با کمک آن می توان اشیا و داده ها را در گروه های مختلفی قرار داد و انها را دسته بندی کرد.

اشیایی که در یک خوشه قرار میگیرند با هم شباهت زیادی دارند در عوض با خوشه های دیگر متفاوت هستند. هدف از این کار دسته بندی اشیا با بیشترین شباهت است. با این کار میتوان خوشه ها را با هم مقایسه کرد.

تفکیک و دسته بندی داده ها زمانی که تعداد داده ها کم باشد کار راحتی است براحتی میتوان دو شی با دو رنگ مختلف را در دو دسته مجزا قرار داد. حتی ده شی را هم میتوان از هم تشخیص داد اما زمانی که تعداد آنها بسیار زیاد باشد این کار بسیار دشوار می شود. اینجاست که روش خوشه بندی خودش را نشان می دهد. خوشه بندی ویژگی های پنهان داده ها را به سرعت تشخیص داده و در کسری از ثانیه میتواند داده ها و اشیا بسیار زیادی را در دسته های مختلف قرار دهد و برای آنها برچسب عضویت در یک خوشه را تخصیص دهد.

روش های خوشه بندی

گرچه الگوریتم های مختلفی برای خوشه بندی استفاده می شود که ماهیت و مبنای آنها تقریبا شبیه به هم است اما از نظر دقت، سرعت عمل و شیوه اندازه گیری با هم تفاوت هایی دارند. از جمله روش های خوشه بندی عبارتند از :

خوشه بندی بر اساس اتصال ( سلسله مراتبی )

خوشه بندی مرکز محور

خوشه بندی بر اساس چگالی

خوشه بندی فازی

خوشه بندی بر اساس پارتیشن بندی

خوشه بندی بر مبنای توزیع

خوشه بندی نظارتی ( خوشه بندی بر اساس محدودیت)

۱-خوشه بندی سلسله مراتبی یا خوشه بندی بر اساس اتصال

خوشه بندی سلسله مراتبی روشی برای خوشه بندی در یادگیری ماشین بدون نظارت است که در آن با یک سلسله مراتب از بالا به پایین خوشه ها شروع می شود. سپس داده ها را تجزیه و تحلیل نموده و از این رو خوشه ها را بدست می آورد. خوشه بندی سلسله مراتبی میتواند از بالا به پایین یا از پایین به بالا باشد.

خوشه بندی سلسله مرتابی در هر سطح از خوشه نتیجه را نشان می دهد که به هر کدام از این سطوح سلسله مراتب می گویند. در روش سلسله مرتابی برای نمایش نتایج از درخت استفاده می کنند. در تصویر زیر میتوانید یک نمونه خوشه بندی سلسله مراتبی را مشاهده کنید

شکل ۱ – خوشه بندی سلسله مراتبی

۲-خوشه بندی مرکز محور

خوشه بندی مرکز محور یا خوشه بندی بر اساس centroid ساده ترین و در عین حال موثرترین روش خوشه بندی داده ها به شمار می رود. در روش خوشبه بندی سنتروید centroids خوشه ها بر اساس یک بردار مرکزی خوشه بندی می شودند که امکان دارد جزئی از مجموعه داده ها نباشد.

یکی از معروف ترین الگوریتم های خوشبه بندی مرکز محور الگوریتم k means است. کمتر کسی است که با این الگوریتم آشنایی نداشته باشد. در این روش از یک بردار مرکزی برای خوشه بندی استفاده می شود سپس داده هایی که به این بردار نزدیک تر هستند در یک خوشه قرار داده می شوند.

این گروه از روشهای خوشه ای با استفاده از معیارهای مختلف فاصله ، فاصله بین خوشه ها و مرکز سانترال را مشخص می کنند. اینها یا فاصله اقلیدسی ، فاصله منهتن یا فاصله مینکوفسکی هستند.

اشکال عمده در اینجا این است که باید بصورت شهودی یا علمی (روش Elbow) تعداد خوشه ها را “k” تعریف کنیم تا تکرار هر الگوریتم یادگیری ماشین خوشه بندی برای شروع اختصاص داده های داده آغاز شود.

در شکل زیر میتوانید نمونه ای از خوشه بندی مرکز محور را مشاهده کنید.

شکل ۲- خوشه بندی بر اساس centroid

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *