اندازهی قلم متن
تخمین مدت زمان مطالعهی مطلب:
نه دقیقه
در قسمت قبل با الگوریتم های Decision trees و Linear Regression آشنا شدیم. در این قسمت به الگوریتم Clustering یا خوشه بندی میپردازیم.
مقدمه
تصور کنید شما بچهای هستید که با یک کیسه تیله روی زمین نشستهاید. لحظهای که تیلهها را از کیسه روی زمین میریزید، متوجه میشوید که تیلهها، چهار رنگ دارند (آبی، قرمز، سبز و زرد). تیلهها را در چهار گروه با توجه به رنگهایشان قرار میدهید. اما بعد متوجه میشوید که اندازه بعضی از تیلهها متوسط و برخی بزرگ و تعدادی هم کوچک هستند. شما تصمیم میگیرید که تیلههای کوچک و متوسط، در کنار یکدیگر و در یک گروه قرار گیرند؛ اما تیلههای بزرگ را در یک گروه دیگر قرار میدهید. چرا که تنها یکی از آنها را باید به هر بازیکن داد. تبریک میگویم! شما یک عمل خوشه بندی را انجام دادید.
حال زمانیکه قدری با دقت بیشتری به خوشه بندی خود نگاه میکنید، متوجه میشوید که برخی از تیلهها کریستالی، برخی دیگر سه پر و چهارپر، بعضی از آنها صاف و صیقلی و بعضی دیگر دارای خراش میباشند. اینجاست که قدری سردرگم میشوید. آیا باید همان گروه بندی ساده براساس رنگ و اندازه را مدنظر قرار دهید، یا بهتر است عوامل دیگری مانند سبک، مواد تشکیل دهنده و وضعیت ظاهری را نیز اضافه کنید؟
خوشه بندی، یک عمل انسانی راحت، طبیعی و حتی میشود گفت اتوماتیک برای مواجه شدن با مجموعه ویژگیهای کوچک میباشد. اما همینطور که ویژگیها بیشتر میشوند، حل مساله برای انسان خیلی سخت و غیرممکن میشود. ذهن یک انسان معمولی، تقریبا قادر به درنظر گرفتن 5 یا 6 بُعد میباشد. این درحالی است که مجموعه دادههای مدرن گاها دارای دهها بعد (اگر نگوییم صدها) میباشند.
الگوریتم خوشه بندی مایکروسافت، گروه بندیهایی ذاتی را داخل مجموعه داده شما پیدا میکند که ممکن است به چشم نیایند. به عبارت دیگر، متغیرهای پنهانی را که به طور دقیق دادههای شما را خوشه بندی میکنند، پیدا مینماید. برای مثال فرض کنید که شما جزیی از یک گروه بزرگ مسافران هستید که در بخش نوار نقاله حمل بار در فرودگاه منتظر برداشتن چمدان میباشید. متوجه میشوید که درصد قابل توجهی از مسافران شلوار کوتاه پوشیده و پوستشان در اثر آفتاب قدری تیرهتر شده است؛ درحالیکه مابقی مسافران لباس گرم مانند ژاکت و کت به تن دارند. بنابراین به یک حقیقت پی میبرید. یک گروه از نواحی گرمسیری آمدهاند و دیگری از یک جای سرد و مرطوب. این همان متغیر پنهان است.
الگوریتم Clustering یا خوشه بندی مایکروسافت
الگوریتم خوشه بندی مایکروسافت رفتارهای خاصی را در مواجه با نوع ویژگیها از خود نشان میدهد. در ارتباط با ستونهای ورودی (Input) و ورودی-خروجی (Predict) مانند آنچه قبلا گذشت عمل میکند. البته با یک تفاوت و آن اینکه ستونهای ورودی-خروجی در حین پیش بینی قابل انتخاب هستند؛ حال آنکه ستونهای ورودی اینطور نیستند. ستونهایی که فقط خروجی (Predict Only) هستند، در طی فاز خوشه بندی برای آموزش مدل به کار نمیروند.
همانطور که قبلا نیز اشاره شد، خوشه بندی، رایجترین عملی است که با این الگوریتم انجام میدهند. بنابراین جهت کشف خوشه بندیها در یک مجموعه داده میتوان این الگوریتم را روی مجموعه داده اعمال کرده و خوشه بندیهای کشف شده را برچسب زد. بعد از برچسب زدن میتوان از آن، جهت گزارش گیری و تحلیل دادهها استفاده نمود. از آنجا که این الگوریتم سربار پردازشی و حافظهای زیادی دارد، بنابراین در رابطه با مجموعه دادههای بزرگ (رکوردهای میلیونی و پیچیده) بهتر است که فقط بخش کوچکی از داده را برای آموزش استفاده کرده (که البته کافی و وافی است) و از طریق آنها ویژگیهای خوشه بندی را کشف کرد.
توسط این الگوریتم میتوان مدل را تجزیه-تحلیل نمود و نابهنجاریها را نیز تشخیص داد.
محتوای مدل خوشه بندی
درک محتوای مدل خوشه بندی بسیار ساده است. شکل زیر دیاگرام خوشه بندی یا Cluster Diagram میباشد. همانطور که در شکل آمده است SSAS در نشان دادن نام هر گره به خوبی عمل نمیکند زیرا هر گره توسط Cluster و یک ایندکس نشان داده میشود و نام معناداری برای آن در نظر نمیگیرد. برای مثال خوشه مربوط به تیلههای آبی بزرگ سه پر (برای مثال Cluster2، Cluster1 و ....).
بنابراین برای برچسب زدن مناسب برروی هر گره باید به شکل زیر عمل کرد:
- مرور اجمالی مدل: توسط دو برگه اول یعنی Cluster Diagram و Cluster Profiles میتوان توپولوژی مدل خوشه بندی را به دست آورد. در برگه Cluster Diagram هر خوشه یک گره را تشکیل میدهد که براساس شباهت به یکدیگر متصل شدهاند. بدیهی است خوشههایی که در ضعیفترین ارتباط هم به یکدیگر متصل نیستند، هیچگونه شباهتی ندارند. براساس میزان شباهت، نوار اتصال بین گرهها، تیرهتر یا روشنتر میگردد. همانطور که در شکل فوق مشخص است هرچه این نوار تیرهتر باشد، بیانگر شباهت بیشتر بین دو خوشه است. Cluster Profiles یک ستون را برای هر خوشه و یک سطر را برای هر ویژگی درنظر میگیرد. درصورتیکه یک ویژگی برای شما جالب توجه باشد میتوانید به صورت افقی توزیع آن را در خوشههای مختلف مشاهده کنید. هر زمانیکه آیتمی نظر شما را جلب کرد میتوان به سلولهای مجاور یا سلولهای هم خوشه آن نگاه کرد و مفهوم آن خوشه را بیشتر درک نمود. با کلیک برروی هر یک از سلولها میتوان جزییات مربوط به آن سلول را مشاهده کرد. برای مثال میتوان فهمید این خوشه براساس چه شروطی ایجاد شدهاست. شکل زیر نمایی از Cluster Profiles را نشان میدهد. همانطور که در قسمت قبل نیز بحث شد، نوارهای هیستوگرام مربوط به ویژگیهای گسسته بوده و نوارهای الماسی نشان دهنده ویژگیهای پیوسته میباشند.
- انتخاب یک خوشه و تشخیص وجه تمایز آن: از برگه Cluster Diagram شروع مینماییم. یک راه این است که ببینیم کدام خوشهها، قویترین ارتباط را دارند و یکی از آنها را انتخاب نماییم. راه دیگر این است که خوشهای را انتخاب کنیم که به نظر دور از بقیه خوشهها است. پس از انتخاب خوشه موردنظر به تب Cluster Characteristics میرویم. همانطور که در شکل زیر مشخص است این بخش مشخصات حالات مختلف یک خوشه را توسط نمودار احتمال با روند کاهشی نشان میدهد. بنابراین میتوان متوجه شد چه ویژگی هایی و با چه احتمالی سبب ایجاد یک خوشه شدهاند.
- تشخیص چگونگی تمایز یک خوشه از خوشههای نزدیک به آن: حال میتوان با اطلاعاتی که تا به حال کسب کردهایم یک خوشه را به صورت دقیق برچسب بزنیم. اما ممکن است این خوشه خیلی شبیه به خوشههای دیگر باشد و بنابراین مجبور شویم که یک برچسب را بر روی دو خوشه بزنیم. پس توصیه میشود که خوشه انتخاب شده را با خوشههای همسایه مقایسه کنیم. برای این منظور به تب Cluster Diagram مراجعه نموده و نگاه میکنیم که کدام خوشهها به خوشه مدنظر ما نزدیک هستند. اگر هیچ اتصال قوی بین دو خوشه نبود کار تمام است. اما اگر اینگونه نبود آنگاه باید مجددا به تب Cluster Characteristics مراجعه نموده و تک تک ویژگیهای دو خوشه نزدیک به هم را مقایسه نماییم، تا فرق بین آنها را در صورت وجود به دست آوریم.
خوشه بندی سخت و خوشه بندی نرم
مهمترین فرق بین الگوریتمهای خوشه بندی، روشی است که الگوریتمها در رابطه با انتساب حالتها، به خوشهها اتخاذ میکنند. الگوریتم خوشه بندی مایکروسافت، دو روش مختلف را برای اینکار دارند: K-means و Expectation Maximization. روش اول (شکل سمت چپ) براساس فاصله حالتها نسبت به خوشهها، آنها را نسبت میدهد و در پایان مرکز خوشه طوری قرار خواهد گرفت که وسط حالتها باشد. به این تکنیک، خوشه بندی سخت میگویند (شکل سمت چپ) زیرا همانطور که در شکل سمت چپ مشخص است هر شیء فقط و فقط در یک خوشه قرار میگیرد و هیچ یک از خوشهها با یکدیگر هم پوشانی ندارند. روش دوم (شکل سمت راست) به جای استفاده محض از مقیاس فاصله، از یک مقیاس احتمالی استفاده میکند. این روش یک منحنی زنگوله شکل را که دارای میانگین و انحراف معیار است برای هر بُعد درنظر میگیرد. چنانچه نقطهای داخل یک منحنی بیفتد با یک احتمال معینی به آن خوشه نسبت داده میشود. به دلیل اینکه منحنیها میتوانند هم پوشانی داشته باشند، بنابراین هر نقطه میتواند به چندین خوشه منتسب شود؛ البته با احتمالات مختلف. به این تکنیک، خوشه بندی نرم گفته میشود (شکل سمت راست). این تکنیک در شناسایی خوشههای پیوسته خیلی موثر است مانند وضعیت تراکم جمعیت مناطق.
خوشه بندی با قابلیت مدرج کردن
یکی از مسایلی که در الگوریتم خوشه بندی وجود دارد این است که جهت به دست آوردن خوشه بندی مناسب، نیاز به تکرار آموزش برروی دادهها است. این تکرار در مجموعه دادههای کوچک، مشکلی ایجاد نمیکند، اما در رابطه با مجموعه دادههای بزرگ این امر امکان پذیر نیست. زیرا کل مجموعه داده داخل رم قرار میگیرد و مشکلات کارآیی را ایجاد میکند. الگوریتم خوشه بندی مایکروسافت یک چارچوب برای مدرج کردن خوشه بندی را در اختیار ما قرار میدهد که با استفاده از آن میتوان بر این مشکل فایق آمد. این مهم توسط پارامتر Sample_Size مرتفع میشود که یکی از پارامترهای این الگوریتم میباشد. همانطور که در قسمت قبل نیز گفته شد دسترسی به پارامترهای هر الگوریتم به شکل زیر صورت میپذیرد:
مراجعه به برگه mining models ، کلیک بر روی الگوریتم، رفتن به پنجره properties الگوریتم. حال میتوان به بخش Algorithm Parameters رفت و پارامترها را مقداردهی کرد. البته اگر از نظر حافظه رم مشکلی ندارید، میتوانید مقدار این پارامتر را صفر درنظر بگیرید و با این کار تمام حافظه رم را به پردازش الگوریتم اختصاص بدهید، تا الگوریتم به هر میزانی که نیاز دارد، از حافظه رم استفاده نماید.