هنگامی که دربارهی علم و یادگیری ماشینی فکر میکنیم، دو زبان برنامهنویسی بلافاصله به ذهن متبادر میشوند: پایتون و R. این دو زبان به شکل عمومی از بسیاری از الگوریتمهای یادگیری ماشین رایج، تکنیکهای پیشپردازش دادهها و خیلی بیشتر از اینها پشتیبانی میکنند؛ بنابراین برای -تقریباً- هر مسالهی یادگیری ماشینی مورد استفاده قرار میگیرند.
با اینحال، گاهی فرد یا شرکتی نمیتواند از پایتون یا R استفاده کند که میتواند به یکی از دلایل متعدد، از جمله وجود کد منبع در زبان دیگر یا نداشتن هیچ تجربهای در پایتون یا R باشد. یکی از محبوبترین زبانهای امروزی، #C است که برای بسیاری از کاربردها مورد استفاده قرار میگیرد. مایکروسافت برای استفاده از قدرت یادگیری ماشین در #C، یک بسته را به نام ML.NET ایجاد کرده که همهی قابلیتهای یادگیری ماشین پایه را فراهم میکند.
در این مقاله، به شما نشان خواهم داد که چگونه از ML.NET برای ایجاد یک مدل دستهبندی دوتایی بهره ببرید؛ قابلیتهای AutoML را مورد استفاده قرار داده و از یک مدل Tensorflow با ML.NET استفاده کنید. کد کامل مخصوص مدل دستهبندی دوتایی را میتوانید در
GitHub بیابید.
افزودن ML.NET به پروژهی #C
اضافه کردن ML.NET به یک پروژهی #C یا #F آسان است. تنها کار لازم، اضافه کردن بستهی Microsoft.ML یا در برخی موارد، -بسته به نیازمندیهای پروژه- بستههای اضافی مانند: Microsoft.ML.ImageAnalytics, Microsoft.ML.TensorFlow یا Microsoft.ML.OnnxTransformer است.
بارگذاری در یک دیتاست و ایجاد pipeline دادهها
بارگذاری و پیشپردازش یک مجموعه داده در ML.NET کاملا ً متفاوت از زمانی است که با دیگر بستهها / چارچوبهای یادگیری ماشین کار میکنیم. چون ما نیاز داریم به طور واضح، ساختار دادهها را بیان کنیم. برای انجام این کار، فایلی به نام ModelInput.cs را درون یک پوشه به نام DataModels ایجاد کرده و داخل این فایل، همهی ستونهای مجموعه دادههای خود را ثبت خواهیم کرد. برای این مقاله، ما از
مجموعه دادههای ردیابی کلاهبرداری کارت اعتباری استفاده میکنیم که میتواند آزادانه از
Kaggle بارگیری شود. این مجموعهدادهها شامل ۳۱ ستون است. کلاس تراکنش (۰ یا ۱)، مقدار تراکنش، زمان تراکنش و نیز ۲۸ ویژگی بینام (anonymous).
using Microsoft.ML.Data;
namespace CreditCardFraudDetection.DataModels
{
public class ModelInput
{
[ColumnName("Time"), LoadColumn(0)]
public float Time { get; set; }
[ColumnName("V1"), LoadColumn(1)]
public float V1 { get; set; }
[ColumnName("V2"), LoadColumn(2)]
public float V2 { get; set; }
[ColumnName("V3"), LoadColumn(3)]
public float V3 { get; set; }
[ColumnName("V4"), LoadColumn(4)]
public float V4 { get; set; }
[ColumnName("V5"), LoadColumn(5)]
public float V5 { get; set; }
[ColumnName("V6"), LoadColumn(6)]
public float V6 { get; set; }
[ColumnName("V7"), LoadColumn(7)]
public float V7 { get; set; }
[ColumnName("V8"), LoadColumn(8)]
public float V8 { get; set; }
[ColumnName("V9"), LoadColumn(9)]
public float V9 { get; set; }
[ColumnName("V10"), LoadColumn(10)]
public float V10 { get; set; }
[ColumnName("V11"), LoadColumn(11)]
public float V11 { get; set; }
[ColumnName("V12"), LoadColumn(12)]
public float V12 { get; set; }
[ColumnName("V13"), LoadColumn(13)]
public float V13 { get; set; }
[ColumnName("V14"), LoadColumn(14)]
public float V14 { get; set; }
[ColumnName("V15"), LoadColumn(15)]
public float V15 { get; set; }
[ColumnName("V16"), LoadColumn(16)]
public float V16 { get; set; }
[ColumnName("V17"), LoadColumn(17)]
public float V17 { get; set; }
[ColumnName("V18"), LoadColumn(18)]
public float V18 { get; set; }
[ColumnName("V19"), LoadColumn(19)]
public float V19 { get; set; }
[ColumnName("V20"), LoadColumn(20)]
public float V20 { get; set; }
[ColumnName("V21"), LoadColumn(21)]
public float V21 { get; set; }
[ColumnName("V22"), LoadColumn(22)]
public float V22 { get; set; }
[ColumnName("V23"), LoadColumn(23)]
public float V23 { get; set; }
[ColumnName("V24"), LoadColumn(24)]
public float V24 { get; set; }
[ColumnName("V25"), LoadColumn(25)]
public float V25 { get; set; }
[ColumnName("V26"), LoadColumn(26)]
public float V26 { get; set; }
[ColumnName("V27"), LoadColumn(27)]
public float V27 { get; set; }
[ColumnName("V28"), LoadColumn(28)]
public float V28 { get; set; }
[ColumnName("Amount"), LoadColumn(29)]
public float Amount { get; set; }
[ColumnName("Class"), LoadColumn(30)]
public bool Class { get; set; }
}
}
در اینجا یک فیلد را برای هر یک از ستونهای داخل مجموعه دادهمان ایجاد میکنیم. نکتهی مهم، تعیین شاخص (Index)، نوع و ستون، به شکل صحیح است. حالا که دادههای ما مدلسازی شدهاند، باید قالب و شکل دادههای خروجی خود را مدل کنیم. این کار میتواند به روشی مشابه با کدهای بالا انجام شود.
using Microsoft.ML.Data;
namespace CreditCardFraudDetection.DataModels
{
public class ModelOutput
{
[ColumnName("PredictedLabel")]
public bool Prediction { get; set; }
public float Score { get; set; }
}
}
ما در اینجا ۲ فیلد داریم. فیلد score نشاندهندهی خروجی به شکل درصد است؛ در حالیکه فیلد prediction از نوع بولی است. اکنون که هر دو داده ورودی و خروجی را مدلسازی کردهایم، میتوانیم دادههای واقعی خود را با استفاده از روش مونتکارلو بارگذاری کنیم.
IDataView trainingDataView = mlContext.Data.LoadFromTextFile<ModelInput>(
path: dataFilePath,
hasHeader: true,
separatorChar: ',',
allowQuoting: true,
allowSparse: false);
ساخت و آموزش مدل
برای ایجاد و آموزش مدل، نیاز به ایجاد یک pipeline داریم که شامل پیشپردازش دادههای مورد نیاز و الگوریتم آموزش است. برای این مجموعه دادهی خاص، انجام هر پیشپردازش بسیار دشوار است زیرا ۲۸ ویژگی بینام دارد. بنابراین تصمیم گرفتم که آن را ساده نگه دارم و تنها همهی ویژگیها را الحاق کنم (این کار باید در ML.NET انجام شود).
var dataProcessPipeline = mlContext.Transforms.Concatenate("Features", new[] { "Time", "V1", "V2", "V3", "V4", "V5", "V6", "V7", "V8", "V9", "V10", "V11", "V12", "V13", "V14", "V15", "V16", "V17", "V18", "V19", "V20", "V21", "V22", "V23", "V24", "V25", "V26", "V27", "V28", "Amount" });
برای مدل، الگوریتم LightGBM را انتخاب میکنم. این الگوریتم در واقع در Microsoft.ML از ابتدا وجود ندارد؛ بنابراین شما باید Microsoft.ML.LightGbm را نصب کنید تا قادر باشید از آن استفاده کنید.
// Choosing algorithm
var trainer = mlContext.BinaryClassification.Trainers.LightGbm(labelColumnName: "Class", featureColumnName: "Features");
// Appending algorithm to pipeline
var trainingPipeline = dataProcessPipeline.Append(trainer);
اکنون میتوانیم مدل را با متد Fit، آموزش داده سپس با استفاده از mlContext.model.save ذخیره کنیم:
ITransformer model = trainingPipeline.Fit(trainingDataView);mlContext.Model.Save(model , trainingDataView.Schema, <path>);
ارزیابی مدل
حالا که مدل ما آموزش دیده است، باید عملکرد آن را بررسی کنیم. سادهترین راه برای انجام این کار، استفاده از اعتبارسنجی متقاطع (
cross-validation) است. ML.Net به ما روشهای اعتبارسنجی متقاطع را برای انواع مختلف دادههای مختلف، ارایه میدهد. از آنجا که مجموعه دادههای ما یک مجموعه داده دستهبندی دودویی است، ما از روش
mlContext.BinaryClassification.CrossValidateNonCalibrated برای امتیازدهی به مدل خود استفاده خواهیم کرد:
var crossValidationResults = mlContext.BinaryClassification.CrossValidateNonCalibrated(trainingDataView, trainingPipeline, numberOfFolds: 5, labelColumnName: "Class");
انجام پیشبینی
پیش بینی دادههای جدید با استفاده از ML.NET واقعاً سرراست و راحت است. ما فقط باید یک PredictionEngine، نمایشی دیگر را از مدل خود که به طور خاص، برای استنباط ساخته شده است، ایجاد کنیم و متد Predict آن را به عنوان یک شی ModelInput فراخوانی کنیم.
var predEngine = mlContext.Model.CreatePredictionEngine<ModelInput, ModelOutput>(mlModel);
ModelInput sampleData = new ModelInput() {
time = 0,
V1 = -1.3598071336738,
...
};
ModelOutput predictionResult = predEngine.Predict(sampleData);
Console.WriteLine($"Actual value: {sampleData.Class} | Predicted value: {predictionResult.Prediction}");
Auto-ML
نکته جالب دیگر در مورد ML.NET اجرای عالی Auto ML است. با استفاده از Auto ML فقط با مشخص کردن اینکه روی چه مشکلی کار میکنیم و ارائه دادههای خود، میتوانیم راهحلهای اساسی و پایهی یادگیری ماشین را بسازیم. برای شروع کار با ML خودکار در ML.NET، باید Visual Studio Extension - ML.NET Model Builder (Preview) را بارگیری کنیم. این کار را میتوان از طریق تب extensions انجام داد. پس از نصب موفقیت آمیز افزونه، با کلیک راست روی پروژهی خود در داخل Solution Ex میتوانیم از Auto ML استفاده کنیم. با این کار پنجره Model Builder باز میشود. سازندهی مدل، ما را در روند ساخت یک مدل یادگیری ماشین راهنمایی میکند.
برای کسب اطلاعات در مورد چگونگی گذراندن مراحل مختلف، حتماً آموزش رسمی
شروع کار را در سایت مایکروسافت، بررسی کنید. بعد از تمام مراحل، Model Builder به طور خودکار کد را تولید میکند.
استفاده از یک مدل پیشآموزشدادهشدهی تنسورفلو (pre-trained)
نکتهی جالب دیگر در مورد ML.NET این است که به ما امکان استفاده از مدلهای Tensorflow و ONNX را برای استنباط ( inference ) میدهد. برای استفاده از مدل Tensorflow باید Microsoft.ML.TensorFlow را با استفاده از NuGet نصب کنیم. پس از نصب بستههای لازم، میتوانیم با فراخوانی متد Model.LoadTensorFlowModel، یک مدل Tensorflow را بارگذاری کنیم. پس از آن، باید متد ScoreTensorFlowModel را فراخوانی کرده و نام لایهی ورودی و خروجی را به آن ارسال کنیم.
private ITransformer SetupMlnetModel(string tensorFlowModelFilePath)
{
var pipeline = _mlContext.<preprocess-data>
.Append(_mlContext.Model.LoadTensorFlowModel(tensorFlowModelFilePath)
.ScoreTensorFlowModel(
outputColumnNames: new[]{TensorFlowModelSettings.outputTensorName },
inputColumnNames: new[] { TensorFlowModelSettings.inputTensorName },
addBatchDimensionInput: false));
ITransformer mlModel = pipeline.Fit(CreateEmptyDataView());
return mlModel;
}
اطلاعات بیشتر در مورد نحوه استفاده از مدل Tensorflow در ML.NET: