مطالب
تهیه گزارشات Crosstab به کمک LINQ

در گزارشات Crosstab، ردیف‌های یک گزارش، تبدیل به ستون‌های آن می‌شوند؛ به همین جهت به آن‌ها Pivot tables هم می‌گویند.
برای مثال فرض کنید که قصد دارید گزارش تعداد ساعت کارکرد را به ازای هر پروژه در طول چند ماه تعیین کنید. گزارش متداول از این نوع اطلاعات، یک لیست بلند بالای بی‌مفهوم است. این گزارش تشکیل شده از صدها رکورد به ازای کارکنان مختلف در پروژه‌های مختلف و ... هیچ ارزش آماری خاصی ندارد. یک گزارش بدوی است. زمانیکه این گزارش را تبدیل به حالت crosstab می‌کنیم، اولین ستون فقط یک شماره پروژه خواهد بود و ستون‌های بعدی، مثلا نام ماه‌ها و مقادیر آن‌ها هم جمع کارکرد افراد بر روی یک پروژه مشخص.

مثال اول) تهیه گزارش Crosstab جمع هزینه‌های واحدهای مختلف به تفکیک ماه

کلاس هزینه‌های زیر را در نظر بگیرید که به کمک آن می‌توان به ازای هر واحد یا دپارتمان در تاریخ‌های متفاوت، هزینه‌ای را مشخص ساخت:

using System;

namespace Pivot.Sample1
{
public class Expense
{
public DateTime Date { set; get; }
public string Department { set; get; }
public decimal Expenses { set; get; }
}
}

با توجه به این کلاس، یک منبع داده آزمایشی جهت تهیه گزارشات، می‌تواند به صورت زیر باشد:

using System;
using System.Collections.Generic;

namespace Pivot.Sample1
{
public class ExpenseDataSource
{
public static IList<Expense> ExpensesDataSource()
{
return new List<Expense>
{
new Expense { Date = new DateTime(2011,11,1), Department = "Computer", Expenses = 100 },
new Expense { Date = new DateTime(2011,11,1), Department = "Math", Expenses = 200 },
new Expense { Date = new DateTime(2011,11,1), Department = "Physics", Expenses = 150 },

new Expense { Date = new DateTime(2011,10,1), Department = "Computer", Expenses = 75 },
new Expense { Date = new DateTime(2011,10,1), Department = "Math", Expenses = 150 },
new Expense { Date = new DateTime(2011,10,1), Department = "Physics", Expenses = 130 },

new Expense { Date = new DateTime(2011,9,1), Department = "Computer", Expenses = 90 },
new Expense { Date = new DateTime(2011,9,1), Department = "Math", Expenses = 95 },
new Expense { Date = new DateTime(2011,9,1), Department = "Physics", Expenses = 100 }
};
}
}
}

و اگر این لیست را به همین شکلی که هست نمایش دهیم، خروجی زیر را خواهیم داشت:


که ... خروجی مطلوبی نیست. در اینجا ما فقط 9 رکورد داریم؛ اما در عمل به ازای هر روز، یک رکورد می‌تواند وجود داشته باشد و این لیست طولانی، هیچ ارزش آماری خاصی ندارد. می‌خواهیم سرستون‌های گزارش ما مطابق جدول زیر باشند:


یعنی اگر سه ماه را در نظر بگیریم با هر تعداد رکورد، فقط سه ردیف به ازای هر ماه باید حاصل شود و ستون‌های دیگر هم نام بخش‌ها یا واحدهای موجود باشند.
برای رسیدن به این خروجی Crosstab، می‌توان کوئری LINQ زیر را به کمک امکانات گروه بندی اطلاعات آن تهیه کرد:

using System.Collections;
using System.Linq;

namespace Pivot.Sample1
{
public class PivotTable
{
public static IList ExpensesCrossTab()
{
return ExpenseDataSource
.ExpensesDataSource()
.GroupBy(t =>
new
{
Year = t.Date.Year,
Month = t.Date.Month
})
.Select(myGroup =>
new
{
//Year = myGroup.Key.Year,
Month = myGroup.Key.Month,
ComputerDepartment = myGroup.Where(x => x.Department == "Computer").Sum(x => x.Expenses),
MathDepartment = myGroup.Where(x => x.Department == "Math").Sum(x => x.Expenses),
PhysicsDepartment = myGroup.Where(x => x.Department == "Physics").Sum(x => x.Expenses)
})
.ToList();
}
}
}

که اینبار خروجی زیر را تولید می‌کند.


اگر علاقمند باشید که مثال فوق را در برنامه‌ی LINQPad آزمایش کنید، این فایل را دریافت نموده و در آن برنامه باز نمائید.


مثال دوم) تهیه لیست Crosstab حضور و غیاب افراد در طول یک هفته

کلاس StudentStat را جهت ثبت اطلاعات حضور یک دانشجو، می‌توان به شکل زیر تعریف کرد:

using System;

namespace Pivot.Sample2
{
public class StudentStat
{
public int Id { set; get; }
public string Name { set; get; }
public DateTime Date { set; get; }
public bool IsPresent { set; get; }
}
}

و بر همین اساس یک منبع داده فرضی جهت انجام گزارشات می‌تواند به نحو زیر تهیه شود:

using System;
using System.Collections.Generic;

namespace Pivot.Sample2
{
public class StudentsStatDataSource
{
public static IList<StudentStat> CreateMonthlyReportDataSource()
{
var result = new List<StudentStat>();
var rnd = new Random();

for (int day = 1; day < 6; day++)
{
for (int student = 1; student < 6; student++)
{
result.Add(new StudentStat
{
Id = student,
Date = new DateTime(2011, 11, day),
IsPresent = rnd.Next(-1, 1) == 0 ? true : false,
Name = "student " + student
});
}
}

return result;
}
}
}

خروجی این گزارش هم در این حالت ساده با 5 دانشجو و فقط 5 روز، 25 رکورد خواهد بود:


که ... این هم آنچنان از لحاظ آماری مطلوب و مفهوم نیست. می‌خواهیم سطرهای این گزارش همانند لیست واقعی حضورغیاب، فقط از نام افراد تشکیل شود و همچنین ستون‌ها مثلا شماره یا نام روزهای یک هفته یا ماه باشند. مثلا به شکل زیر:


برای رسیدن به این خروجی Crosstab، مثلا می‌توان از کوئری LINQ زیر کمک گرفت که بر اساس شماره دانشجویی اطلاعات را گروه بندی کرده است:

using System.Collections;
using System.Linq;

namespace Pivot.Sample2
{
public class PivotTable
{
public static IList StudentsStatCrossTab()
{
return StudentsStatDataSource
.CreateWeeklyReportDataSource()
.GroupBy(x =>
new
{
x.Id
})
.Select(myGroup =>
new
{
myGroup.Key.Id,
Name = myGroup.First().Name,
Day1IsPresent = myGroup.Where(x => x.Date.Day == 1).First().IsPresent,
Day2IsPresent = myGroup.Where(x => x.Date.Day == 2).First().IsPresent,
Day3IsPresent = myGroup.Where(x => x.Date.Day == 3).First().IsPresent,
Day4IsPresent = myGroup.Where(x => x.Date.Day == 4).First().IsPresent,
Day5IsPresent = myGroup.Where(x => x.Date.Day == 5).First().IsPresent,
PresentsCount = myGroup.Where(x => x.IsPresent).Count(),
AbsentsCount = myGroup.Where(x => !x.IsPresent).Count()
})
.ToList();
}
}
}

و این کوئری خروجی زیر را تولید می‌کند که از هر لحاظ نسبت به لیست قبلی مفهوم‌تر است:


فایل LINQPad این مثال را می‌توانید از اینجا دریافت کنید.

نظرات مطالب
مبانی TypeScript؛ تنظیمات TypeScript در ویژوال استودیو
با سلام
من آخرین نسخه TypeScript   و افزونه Web Essentials رو روی VS 2015 نصب کردم، ولی در قسمت Tools > Options که فرمودید، گزینه TypeScript در قسمت    Web Essentials وجود نداره.
آیا مورد دیگه ای نیاز هست برای نصب؟
با تشکر 
نظرات مطالب
EF Code First #3
1-در EF6 بحث ComplexType‌ها بدون نیاز به متادیتا، به صورت خودکار انجام می‌شود؟

2-در  جدول بانک اطلاعاتی، فیلدهایی که از نوع کامپلکس منتقل می‌شوند، در نام خود اسم نوع کامپلکس را هم دارند (مثلا Interests_Interest1 nvarchr(100) null)، آیا راهی وجود دارد که نام نوع کامپلکس در فیلدها ذکر نشود؟

مطالب دوره‌ها
مروری اجمالی بر الگوریتم های داده کاوی و پارامترهای مرتبط با آنها موجود در SSAS
این بخش مروری اجمالی بر الگوریتم‌های موجود در Analysis Services و پارامترهای قابل تنظیم و مقدار پیش فرض هر پارامتر می‌باشد، به منظور بررسی بیشتر هر یک به لینک‌های زیر مراجعه کنید:

1 -  Microsoft Association Rules

به منظور ایجاد قوانینی که توصیف کننده این موضوع باشد که چه مواردی احتمالاً با یکدیگر در تراکنش‌ها ظاهر می‌شوند، استفاده می‌شود.

 Range    Default  Parameter  
(...,1]
200000 
MAXIMUM_ITEMSET_COUNT  
[0,500]
3 
MAXIMUM_ITEMSET_SIZE  
(...,0.0) 1.0 
MAXIMUM SUPPORT  
(...,...)
999999999
MINIMUM IMPORTANCE  
[1,500]
1 
MINIMUM_ITEMSET_SIZE  
 [0.0,1.0]
0.4 
MINIMUM PROBABILITY  
(...,0.0] 0.0  MINIMUM SUPPORT 

2 - Microsoft Clustering
به منظور شناسائی روابطی که در یک مجموعه داده ممکن است از طریق مشاهده منطقی به نظر نرسد، استفاده می‌شود. در واقع این الگوریتم با استفاده از تکنیک‌های تکرار شونده رکوردها را در خوشه هایی که حاوی ویژگی‌های مشابه هستند گروه بندی می‌کند.

 Range
Default
Parameter
(...,0] 10 
CLUSTER COUNT 
(...,0]
0
CLUSTER SEED 
1,2,3,4
1
CLUSTERING METHOD 
[0,65535]
255
MAXIMUM_INPUT_ATTRIBUTES 
[2,65535],0 100
MAXIMUM STATES 
(...,0)
1
MINIMUM SUPPORT 
 [1,50] 10
MODELLING_CARDINALITY 
(...,100],0 50000
SAMPLE SIZE 
(...,0) 10
STOPPING TOLERANCE 

3 - Microsoft Decision Trees
مبتنی بر روابط بین ستونهای یک مجموعه داده ای باعث پیش بینی روابط مدل‌ها می‌شود، که به صورت یک سری درختوار ویژگی‌ها در آن شکسته می‌شوند.
به منظور انجام پیش بینی از هر دو ویژگی پیوسته و گسسته پشتیبانی می‌شود. 

 
Range 
 Default   Parameter 
(0.0,1.0)
  COMPLEXITY_PENALTY 
    FORCE REGRESSOR 
[0,65535]
255
MAXIMUM_INPUT_ATTRIBUTES 
[0,65535]
255
MAXIMUM_OUTPUT_ATTRIBUTES 
(...,0.0) 
10.0
MINIMUM SUPPORT 
 1,3,4 4
SCORE METHOD 
 [1,3] 
3
SPLIT METHOD 

4 - Microsoft Linear Regression
چنانچه یک وابستگی خطی میان متغیر هدف و متغیرهای مورد بررسی وجود داشته باشد، کارآمدترین رابطه میان متغیر هدف و ورودی‌ها را پیدا می‌کند.
به منظور انجام پیش بینی از ویژگی پیوسته پشتیبانی می‌کند.

Range 
 Default  Parameter 
 
  FORCE REGRESSOR 
[0,65535]  
255
MAXIMUM_INPUT_ATTRIBUTES 
[0,65535]  
255
MAXIMUM_OUTPUT_ATTRIBUTES 
 
5 - Microsoft Logistic Regression
به منظور تجزیه و تحلیل عواملی که در یک تصمیم گیری مشارکت دارند که پی آمد آن به وقوع یا عدم وقوع یک رویداد می‌انجامد از این الگوریتم استفاده می‌شود.
جهت انجام پیش بینی از هر دو ویژگی پیوسته و گسسته پشتیبانی می‌کند.

 Range   Default  Parameter 
(0,100)  
30
HOLDOUT_PERCENTAGE 
(...,...) 
0
HOLDOUT SEED 
[0,65535]  
255
MAXIMUM_INPUT_ATTRIBUTES 
[0,65535]  
255
MAXIMUM_OUTPUT_ATTRIBUTES 
[2,65535],
100
MAXIMUM STATES 
(...,0] 
10000
SAMPLE SIZE 
 
6 - Microsoft Naïve Bayes
احتمال ارتباط میان تمامی ستون‌های ورودی و ستون‌های قابل پیش بینی را پیدا می‌کند.  همچنین این الگوریتم برای تولید سریع مدل کاوش به منظور کشف ارتباطات بسیار سودمند می‌باشد. تنها از ویژگی‌های گسسته یا گسسته شده پشتیبانی می‌کند و با تمامی ویژگی‌های ورودی به شکل مستقل رفتار می‌کند. 

 Range   Default   Parameter 
[0,65535] 
255
MAXIMUM_INPUT_ATTRIBUTES 
[0,65535] 
255
MAXIMUM_OUTPUT_ATTRIBUTES 
[2,65535],0 
100
MAXIMUM STATES 
(0,1)  
0.5
MINIMUM_DEPENDENCY_PROBABILITY 
 
7 - Microsoft Neural Network
به منظور تجزیه و تحلیل داده‌های ورودی پیچیده یا مسائل بیزنسی که برای آنها مقدار قابل توجهی داده آموزشی در دسترس می‌باشد اما به آسانی نمی‌توان با استفاده از الگوریتم‌های دیگر این قوانین را بدست آورد، استفاده می‌شود. با استفاده از این الگوریتم می‌توان چندین ویژگی را پیش بینی نمود. همچنین این الگوریتم می‌تواند به منظور طبقه بندی برای ویژگی‌های گسسته و ویژگی‌های پیوسته رگرسیون مورد استفاده قرار گیرد. 

 Range   Default   Parameter 
(...,0]  
4.0
HIDDEN_NODE_RATIO 
(0,100)  
30
HOLDOUT PERCENTAGE 
(...,...)  
0
HOLDOUT SEED 
[0,65535] 
255
MAXIMUM_INPUT_ATTRIBUTES 
[0,65535] 
255
MAXIMUM_OUTPUT_ATTRIBUTES 
[2,65535],0
100
MAXIMUM STATES 
(...,0]  
10000
SAMPLE SIZE 
 
8 - Microsoft Sequence Clustering
به منظور شناسائی ترتیب رخدادهای مشابه در یک دنباله استفاده می‌شود. در واقع این الگوریتم ترکیبی از تجزیه تحلیل توالی و خوشه را فراهم می‌کند.

 Range   Default   Parameter 
(...,0] 
10
CLUSTER COUNT 
[2,65535],0 
64
MAXIMUM_SEQUENCE_STATES 
[2,65535],0 
100
MAXIMUM STATES 
(...,0] 
10
MINIMUM SUPPORT 

9 - Microsoft Time Series
  به منظور تجزیه و تحلیل داده‌های زمانی (داده‌های مرتبط با زمان) در یک درخت تصمیم گیری خطی استفاده می‌شود. الگوهای کشف شده می‌توانند به منظور پیش بینی مقادیر آینده در سری‌های زمانی استفاده شوند. 

 
 Range  Default 
 Parameter 
[0.0,1.0]  
0.6
AUTO_DETECT_PERIODICITY 
(1.0,...) 
0.1
COMPLEXITY_PENALTY 
ARIMA,ARTXP,MIXED 
MIXED
FORECAST METHOD 
[0,100] 
1
HISTORIC_MODEL_COUNT 
(...,1]  
10
HISTORIC_MODEL_GAP 
[0.0,1.0]  
1.0
INSTABILITY_SENSITIVITY 
[...,column maximum] 
1E308+
MAXIMUM_SERIES_VALUE 
[column minimum,...] 
1E308-
MINIMUM_SERIES_VALUE 
(...,1]  
10
MINIMUM SUPPORT 
None,Previous,Mean 
 None MISSING_VALUE_SUBSTITUTION 
{...list of integers...}
{1}
PERIODICITY_HINT 
[0.0,1.0]  
0.5
PREDICTION SMOOTHING