اشتراکها
پیشتر مطالبی در رابطه با مفاهیم مخزن داده و داده کاوی در سایت آمده است: ^ و ^ و ^.
در این سری مقالات به معرفی الگوریتمهای داده کاوی مایکروسافت و نحوه کار کردن با آنها در محیط SQL Server Data Tools (SSDT) میپردازیم. بیشتر متن مقاله ترجمه آزاد از کتاب معروف Data Mining with Microsoft SQL Server 2008 می باشد که یکی از بهترین کتابها در زمینه داده کاوی است. از آنجائیکه دسته بندی الگوریتمهای داده کاوی در SQL Server 2016 نسبت به SQL Server 2008 قدری متفاوت میباشد و کتاب فوق به دلیل ورژن SQL قدیمیتر، این موضوع را درنظر نگرفته است، بنابراین تغییرات ورژن جدید دسته بندی الگوریتمها نیز لحاظ شده است. جهت درک بهتر مطالب، سعی شدهاست مثال و توضیحاتی براساس تجربه کاری آورده شود.
برای دریافت SSDT میتوانید به اینجا مراجعه نمایید.
پس از دریافت و نصب SSDT میتوان به Visual Studio مراجعه نمود و یک پروژه Analysis Services Multidimensional and Data Mining یا به اختصار SSAS-M را به شکل زیر ایجاد کرد.
پس از ایجاد یک پروژه SSAS-M میتوان در بخش Mining Structure یک ساختار داده کاوی را به شکل زیر ایجاد نمود.
حال بایستی توسط ویزارد، ساختار داده کاوی مورد نظر را ایجاد نمود. در صفحه اول ویزارد، مخزن داده را مشخص مینماییم.
در صفحه بعد الگوریتم موردنظر را انتخاب مینماییم.
بدیهی است که پس از ساخت ساختار داده کاوی میتوان الگوریتمهای دیگری را نیز برای مدل کردن مخزن داده به کار برد.
در این مقاله فرض شده است که خواننده نحوه ساخت Cube و Dimension را در یک پروژه SSAS-M توسط SSDT ، میداند. در صورتیکه به داده کاوی و هوش تجاری علاقمند هستید و به مقدمات بیشتری در رابطه با مطالب فوق نیاز دارید، پیشنهاد میشود که فصلهای یک، سه و چهار کتاب فوق را جهت آشنایی بیشتر مطالعه نمایید.
همانطور که در شکل آخر نیز نشان داده شده است SSDT دارای الگوریتمهای زیر است:
- Microsoft_Naive_Bayes
- Microsoft_Decision_Trees
- Microsoft_Linear_Regression
- Microsoft_Clustering
- Microsoft_ Association_Rules
- Microsoft_Neural_Network
- Microsoft_Logistic_Regression
مقدمه (شرح مساله)
چندی پیش در تالار T-SQL سوالی مطرح شد راجع به مساله ای که معروف است به top N per group.
تنها موضوعی که باعث شد من مطلبی راجع به آن بنویسم محدودیتی بود که کاربر مورد نظر داشت؛ که آن محدودیت چیزی نبود جز: query بایستی در نسخه 2000 جوابگو باشد.
قطعا شده است که بخواهید مثلا به ازای هر مشتری آخرین سفارش آن را انتخاب کنید. این مساله Top N نامیده میشود.
فرض کنید جدولی داریم که حاوی سفارشات مشتریان میباشد. هر مشتری میتواند چندین سفارش داشته باشد؛ هر سفارش دارای حداقل دو مقدار "تاریخ سفارش" و "مبلغ سفارش است". هدف پیدا کردن آخرین سفارشات هر مشتری میباشد.
نکته: اگر چند تاریخ برای آخرین سفارش مشتری وجود داشت آنگاه بایستی بر اساس مبلغ سفارش مرتب سازی نزولی صورت بگیرد. یا به عبارت دیگر ابتدا باید مرتب سازی نزولی بر اساس ستون تاریخ سفارش انجام شود و سپس مرتب سازی نزولی بر اساس ستون مبلغ سفارش.
فرض میگیریم دادههای جدول ما چیزیست شبیه به این:
سطرهایی از جدول که رنگی شده اند سطرهای مورد نظر ما هستند که باید در خروجی ظاهر شوند.
دادههای جدول با کمک قابلیت Sort نرم افزار word مرتب سازی شده اند، این تصویر را به این خاطر در اینجا قرار دادم چون که دیدم میتواند در شفاف سازی مساله به من کمک کند.
ابتدا مرتب سازی نزولی بر اساس ستون order_date انجام گرفته و سپس مرتب سازی نزولی بر اساس ستون order_value. و در پایان اولین سطر مربوط به هر مشتری به عنوان خروجی مورد نظر انتخاب میشوند.
راه حل ها
خب پر واضح است که در نسخه 2005 و بعد از آن سادهترین و بهینهترین راه حل استفاده از تابع row_number میباشد.
اما با محدودیتی که در نسخه 2000 وجود دارد راه حلی بهتر از این پیدا نخواهیم کرد:
حالا چه میشود راه حلی بخواهیم مستقل از هر یک از نسخههای SQL Server:
چندی پیش در تالار T-SQL سوالی مطرح شد راجع به مساله ای که معروف است به top N per group.
تنها موضوعی که باعث شد من مطلبی راجع به آن بنویسم محدودیتی بود که کاربر مورد نظر داشت؛ که آن محدودیت چیزی نبود جز: query بایستی در نسخه 2000 جوابگو باشد.
قطعا شده است که بخواهید مثلا به ازای هر مشتری آخرین سفارش آن را انتخاب کنید. این مساله Top N نامیده میشود.
فرض کنید جدولی داریم که حاوی سفارشات مشتریان میباشد. هر مشتری میتواند چندین سفارش داشته باشد؛ هر سفارش دارای حداقل دو مقدار "تاریخ سفارش" و "مبلغ سفارش است". هدف پیدا کردن آخرین سفارشات هر مشتری میباشد.
نکته: اگر چند تاریخ برای آخرین سفارش مشتری وجود داشت آنگاه بایستی بر اساس مبلغ سفارش مرتب سازی نزولی صورت بگیرد. یا به عبارت دیگر ابتدا باید مرتب سازی نزولی بر اساس ستون تاریخ سفارش انجام شود و سپس مرتب سازی نزولی بر اساس ستون مبلغ سفارش.
فرض میگیریم دادههای جدول ما چیزیست شبیه به این:
سطرهایی از جدول که رنگی شده اند سطرهای مورد نظر ما هستند که باید در خروجی ظاهر شوند.
دادههای جدول با کمک قابلیت Sort نرم افزار word مرتب سازی شده اند، این تصویر را به این خاطر در اینجا قرار دادم چون که دیدم میتواند در شفاف سازی مساله به من کمک کند.
ابتدا مرتب سازی نزولی بر اساس ستون order_date انجام گرفته و سپس مرتب سازی نزولی بر اساس ستون order_value. و در پایان اولین سطر مربوط به هر مشتری به عنوان خروجی مورد نظر انتخاب میشوند.
راه حل ها
خب پر واضح است که در نسخه 2005 و بعد از آن سادهترین و بهینهترین راه حل استفاده از تابع row_number میباشد.
SELECT row_id, customer_id, order_date, order_value FROM (SELECT *, ROW_NUMBER() OVER(PARTITION BY customer_id ORDER BY order_date DESC, order_value DESC) AS rnk FROM table_name )t WHERE rnk = 1;
اما با محدودیتی که در نسخه 2000 وجود دارد راه حلی بهتر از این پیدا نخواهیم کرد:
SELECT * FROM table_name t WHERE row_id = (SELECT TOP 1 row_id FROM table_name WHERE customer_id = t.customer_id ORDER BY order_date DESC, order_value DESC);
حالا چه میشود راه حلی بخواهیم مستقل از هر یک از نسخههای SQL Server:
SELECT MIN(row_id) AS row_id, customer_id, order_date, order_value FROM table_name t WHERE order_date = (SELECT MAX(order_date) FROM table_name WHERE customer_id = t.customer_id) AND order_value = (SELECT MAX(order_value) FROM table_name WHERE customer_id = t.customer_id AND order_date = (SELECT MAX(order_date) FROM table_name WHERE customer_id = t.customer_id)) GROUP BY customer_id, order_date, order_value;
نظرات اشتراکها
نگارش نهایی SQL Server 2016 منتشر شد
دانلود SQL Server Management Studio که به صورت جدا منتشر شده