در قسمت قبل با الگوریتم Association Rules که بیشتر برای تحلیل سبد خرید استفاده میشد، آشنا شدیم. در این قسمت که قسمت آخر از سری مقالات الگوریتمهای داده کاوی در SSDT میباشد، با الگوریتمهای Neural Network و Logistic Regression آشنا میشویم.
مقدمه
روشی کار مغز انسان برای حل مسالهای که با آن مواجه میشود را درنظر بگیرید. ابتدا حقایق مساله را در چند سطح تحلیل کرده و میسنجد. سپس این حقایق، وارد نرونهای عصبی میشوند. این نرونهای عصبی مانند فیلترهایی که براساس الگوهای معلوم قبلی عمل میکنند، شروع به فیلتر کردن حقایق مینمایند. درنهایت این موضوع سبب استنتاج میگردد که ممکن است منجر به پیدا کردن راه حلی برای مساله شود و یا به عنوان وقایع افزودهای برای از سرگیری مراحل بالا در نرونهای عصبی دیگر باشد.
توصیف الگوریتم
الگوریتم هوش مصنوعی مایکروسافت، نرونهای عصبی مصنوعی را بین ورودیها و خروجیها، برقرار میسازد و از آنها به عنوان الگو برای پیش بینیهای آینده استفاده مینماید. مزیت این الگوریتم نسبت به الگوریتمهای دیگر، کشف روابط خیلی پیچیده بین ورودیها و خروجیها است. البته نسبت به الگوریتمهای دیگر زمان بیشتری را جهت ساخت و آموزش مدل استفاده میکند.پیچیدگی تحلیل انجام شده توسط این الگوریتم به دو عامل بر میگردد:
- ممکن است یک یا تمام ورودیها به طریقی با یک یا همهی خروجیها مرتبط باشند و الگوریتم باید این موضوع را در آموزش مدل درنظر بگیرد.
- ممکن است ترکیبات مختلفی از ورودیها به طریقی با خروجیها در ارتباط باشند.
دسته بندی اسناد یکی از موضوعاتی است که شبکههای عصبی بهتر از الگوریتمهای دیگر آن را حل میکنند. البته اگر سرعت برای ما مهم باشد، میتوان از الگوریتم Naïve Bayes استفاده کرد. اما درصورتیکه دقت مهمتر باشد، آنگاه باید از الگوریتم شبکههای عصبی استفاده نمود.
تفسیر مدل
نتیجهی حاصله از این الگوریتم نسبت به الگوریتمهای قبلی کاملا متفاوت است. در اینجا دیگر خبری از طرح محتوای مدل و نمودار گرافیکی لایه آموزش نیست. هدف اصلی در اینجا نمایش تاثیر صفت-مقدار، بر ویژگی قابل پیش بینی است. برای مثال جدول زیر در رابطه با تمایل به خرید یا اجاره خانه در رابطه با صفات مختلف میباشد. همانطور که مشخص است، دو ستون اول نشان دهندهی جفت صفت-مقدار و دو ستون دوم، صفت مدنظر جهت پیش بینی را نشان میدهند. براساس این جدول میتوان نتیجه گرفت که مهمترین فاکتور در تمایل به خریداری خانه، سن افراد میباشد. افرادی که سنی بین 38 تا 54 سال را دارند، بیشترین تمایل را در خرید یک خانه دارند. فاکتورهایی مانند متاهل بودن، سطح تحصیلات فوق دکترا، بازه سنی 33 تا 38 و خانم بودن نیز دارای اهمیت میباشند که به ترتیب از درجه اهمیت آنها کم میشود. از طرفی بازه سنی 20 تا 28 سال بیشترین تمایل برای اجاره خانه را دارند. همچنین میتوان گفت که افرادی که مجرد هستند، طلاق گرفتهاند و یا سطح تحصیلاتشان دبیرستان است، بیشتر تمایل به اجاره خانه دارند تا به خرید آن.
Logistic Regression
همانند الگوریتم شبکههای عصبی است؛ با این تفاوت که لایه مخفیای برای تولید ترکیبی از ورودیها ندارد. یعنی سعی در برقراری ارتباط بین ترکیبی از ورودیها و خروجیها نمیکند (در واقع همان الگوریتم شبکههای عصبی است که پارامتر Hidden Node Ratio آن روی صفر تنظیم شده است). بنابراین سرعت پردازش و آموزش مدل در آن، بالاتر میباشد. البته صرف اینکه این الگوریتم دارای پیچیدگی کمتری است نمیتوان گفت که همیشه ضعیفتر از الگوریتم شبکههای عصبی است. بلکه حتی در بعضی از مدلها بهتر از الگوریتم شبکههای عصبی عمل میکند و مانع از باز آموزشی مدل میگردد.
به پایان آمد این دفتر، حکایت همچنان باقی است!
باسپاس فراوان از تمامی دوستانی که در این مدت سری مقالات الگوریتمهای داده کاوی را دنبال نمودند. از آنجاکه هر یک از الگوریتمها، دارای ریزه کاریهای به خصوصی است، بنابراین انتخاب الگوریتم مناسب در رابطه با داده کاوی بسیار حائز اهمیت میباشد و به دلیل فرّار بودن این ریزه کاریها، در گذشته بنده هر زمانیکه نیاز به داده کاوی داشتم مجبور بودم مطالب مربوط به الگوریتمها را مطالعه کنم تا بتوانم بهترین الگوریتم (ها) را در رابطه با داده کاوی مدنظر انتخاب نمایم. در نتیجه برآن شدم تا چکیدهای نسبتا کارا را از این الگوریتمها که در این شش قسمت آورده شد، تهیه و در اختیار عموم قرار دهم. به امید موفقیت و پیشرفت روز افزون تمامی برنامه نویسان و توسعه دهندگان ایرانی.