ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型,你不打算用用?
一、前言
ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程序中。這是這個框架很重要的一點。
通過ML.net,我們可以使用手中的可用數據,進行預測、分析、檢測,而不需要進行過於複雜的編程。
ML.net的核心,同樣是機器學習模型。它採用同樣的步驟,通過指定算法來訓練模型,將輸入數據轉換為所需的預測數據。
更重要的是,ML.net基於.NET Core,這讓它可以非常簡單地跨平台,在Windows、Linux、MacOS上運行,並成為我們服務端的一部分內容。
回到今天的主題。
我們用實際的例子,完成一個通過歷史銷售數據進行單變量時序分析(單譜分析),以預測未來銷量的需求。
為了防止不提供原網址的轉載,特在這裏加上原文鏈接:https://www.cnblogs.com/tiger-wang/p/13150021.html
二、開發環境&基礎工程
這個Demo的開發環境是:Mac + VS Code + Dotnet Core 3.1.2。
$ dotnet --info
.NET Core SDK (reflecting any global.json):
Version: 3.1.201
Commit: b1768b4ae7
Runtime Environment:
OS Name: Mac OS X
OS Version: 10.15
OS Platform: Darwin
RID: osx.10.15-x64
Base Path: /usr/local/share/dotnet/sdk/3.1.201/
Host (useful for support):
Version: 3.1.3
Commit: 4a9f85e9f8
.NET Core SDKs installed:
3.1.201 [/usr/local/share/dotnet/sdk]
.NET Core runtimes installed:
Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]
首先,在這個環境下建立工程:
- 創建Solution
% dotnet new sln -o demo
The template "Solution File" was created successfully.
- 這次,我們用Console創建工程
% cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.
Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
Determining projects to restore...
Restored demo/demo.csproj (in 143 ms).
Restore succeeded.
- 把工程加到Solution中
% dotnet sln add demo/demo.csproj
基礎工程搭建完成。
三、引入ML.net庫
為了使用ML.net,我們需要引入Microsoft.ML
庫:
% cd demo
% dotnet add package Microsoft.ML
除此之外,本文是基於時序的預測,還需要引入時序庫Microsoft.ML.TimeSeries
:
% dotnet add package Microsoft.ML.TimeSeries
我們今天用到的算法是單譜分析(SSA)。SSA會將時序分解為一組主要成分, 並將這些成分解釋為信號,對應於趨勢、噪音、季節性及許多其他的因素,然後重新構建這些成分,用來預測未來某個時間的值。
四、準備數據
為了這個DEMO,我準備了一個包含全年365天實際銷售金額的數據。
其中這個數據又分為了兩部分,第一部分是前11個月的數據,用來做訓練,第二部分是12月一個月的數據,用來評估模型。
兩部分數據的鏈接如下:訓練數據,評估數據
兩個數據文件均為CSV文件,數據結構完全相同,下面是一段內容範例:
2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068.0
2018-12-24,20013.0
2018-12-25,21005.0
2018-12-26,16876.0
2018-12-27,15150.0
2018-12-28,15669.0
2018-12-29,25048.0
2018-12-30,25236.0
五、代碼開發
- 準備一個輸入模型ModelInput
public class ModelInput
{
[LoadColumn(0)]
public DateTime action_time { get; set; }
[LoadColumn(1)]
public float count { get; set; }
}
這個模型對應數據文件的結構,分兩個字段,第一個是日期,第二個是對應的銷售金額。
- 準備另一個輸出模型ModelOutput
public class ModelOutput
{
public float[] forecasted_count { get; set; }
public float[] lower_count { get; set; }
public float[] upper_count { get; set; }
}
這個模型跟隨預測結果的輸出,其中:
- forecasted_count – 預測時間段內的預測值
- lower_count – 預測時間段內預測值的下限
- upper_count – 預測時間段內預測值的上限
- 初始化機器學習的實例
MLContext mlContext = new MLContext();
執行所有 ML.NET 操作都是從MLContext
類開始,初始化 MLContext
將創建一個新的 ML.net 環境,並在模型創建工作流對象之間共享該環境。
- 加載數據
ML.net有多種數據的加載方式,可以通過文件、數據庫、JSON/XML、內存中加載數據,甚至可以用自定義的數據庫連接加載數據。
本文的DEMO中,數據在CSV文件中,所以,我們採用下面的方式加載:
static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
static readonly string _data2Path = Path.Combine(Environment.CurrentDirectory, "data2.csv");
static void Main(string[] args)
{
MLContext mlContext = new MLContext();
IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path, separatorChar: ',', hasHeader: false);
}
IDataView
是數據的承載空間。
- 定義時序分析管道
var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
outputColumnName: "forecasted_count",
inputColumnName: "count",
windowSize: 7,
seriesLength: 30,
trainSize: 334,
horizon: 7,
confidenceLevel: 0.95f,
confidenceLowerBoundColumn: "lower_count",
confidenceUpperBoundColumn: "upper_count");
前面有說過,我們採用單譜分析,所以代碼中我們選擇了mlContext.Forecasting.ForecastBySsa
。
解釋一下這裏面的幾個參數:
- trainSize – 數據樣本的數量,也就是訓練數據的行數(在這個文件中,一行是一個數據樣本,共334行)
- seriesLength – 從數據樣本按時序採樣時的間隔,這裡是30天
- windowSize – 樣本周期的天數,這裡是7天
- horizon – 預測結果的天數
- confidenceLevel – 上下限的可信度。預測屬於合理猜測,不總是完全準確。
- 其它幾個參數,對應輸入輸出模型的字段名
- 訓練模型
管道定義完成,數據加載完成,下面要進行數據訓練。
SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);
跟隨上一節,管道是單譜管道,所以訓練也是單譜訓練SsaForecastingTransformer
。
程序執行到這裏,數據訓練完成。
- 模型評估
模型評估不是必須環節。
模型評估的意義在於:通過評估模型的性能,來調整管道的參數,以達到最佳的預測效果。
模型評估也有多種方式。在這裏,我們採用平均絕對誤差
和均方根誤差
來做評估依據。
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
IDataView predictions = model.Transform(testData);
IEnumerable<float> actual =
mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
.Select(p => p.count);
IEnumerable<float> forecast =
mlContext.Data.CreateEnumerable<ModelOutput>(predictions, true)
.Select(p => p.forecasted_count[0]);
var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);
var MAE = metrics.Average(error => Math.Abs(error));
var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));
Console.WriteLine("評估結果");
Console.WriteLine("---------------------");
Console.WriteLine($"平均絕對誤差: {MAE:F3}");
Console.WriteLine($"均方根誤差: {RMSE:F3}\n");
}
在這個方法中,我們取評估數據的實際值actual
和通過訓練數據生成的預測值forecast
,計算兩個誤差並輸出。
在Main
中調用此方法:
static void Main(string[] args)
{
/* 這兒是前邊訓練的代碼,略過 */
Evaluate(data2View, forecaster, mlContext);
}
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
/* 這兒是評估模型的方法,上面有,略過 */
}
輸出結果類似於以下內容:
評估結果
---------------------
平均絕對誤差: 23.442
均方根誤差: 174.236
兩個指標:
- 平均絕對誤差 – 度量預測與實際值之間的接近程度。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。
- 均方根誤差 – 匯總模型中的錯誤。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。
- 預測
訓練模型調整到滿意后,即可開始預測的工作:
var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();
這兩行代碼,在內存中加載前邊訓練好的模型,並進行預測操作。預測數據的結果放在forecast
中。
對應於分析管道定義中的horizon
,預測數據包含7天的預測結果。
- 預測結果輸出
放在forecast
中的數據,對應模型ModelOutput
,可以用在任何地方。
在本文中,我們直接显示到Console
:
IEnumerable<string> forecastOutput =
mlContext.Data.CreateEnumerable<ModelInput>(data2View, reuseRowObject: false)
.Take(7)
.Select((ModelInput data, int index) =>
{
string action_date = data.action_time.ToString("yyyy-MM-dd");
float actual_count = data.count;
float lowerEstimate = Math.Max(0, forecast.lower_count[index]);
float estimate = forecast.forecasted_count[index];
float upperEstimate = forecast.upper_count[index];
return $"日期: {action_date}\n" +
$"實際值: {actual_count}\n" +
$"預測下限估值: {lowerEstimate}\n" +
$"預測估值: {estimate}\n" +
$"預測上限估值: {upperEstimate}\n";
});
Console.WriteLine("預測結果");
Console.WriteLine("---------------------");
foreach (var prediction in forecastOutput)
{
Console.WriteLine(prediction);
}
運行結果類似於以下內容:
預測結果
---------------------
日期: 2018-12-01
實際值: 24566.08
預測下限估值: 16791.379
預測估值: 20394.115
預測上限估值: 23996.852
完成!
六、延伸內容
ML.net包含了很多機器學習的內容。其中,我自己認為時序預測是用途很廣的一個部分,可以用在
- 銷售預測
- 庫存預警
- 活動策劃輔助
以及其它諸如天氣、股票、人口等諸多內容上,依靠過去和現在的數據,分析兩者之間的關係,然後利用得到的這個關係去預測未來的數據。
因此,在這個分類中,我的第一篇文章就寫了時序預測。
機器學習,核心是各種算法,而算法的基礎是一類數學。這是一個很高的坎。刷算法,線性的部分還好,一旦到了冪次或矩陣,沒有正統的學習,是很難有突破的。而即便刷通了,也只是皮毛性的理解,距離創造算法的大神,還有很長的距離。
所以,退而求其次,對很多人而言,與其花大功夫去研究算法,不如多研究下如何能把現有的算法或工具用好。
還有,在應用中,你能用機器學習來預測銷量、預測庫存,有沒有很自豪?是不是很高大上?
(全文完)
本文的對應代碼,在https://github.com/humornif/Demo-Code/tree/master/0013/demo
微信公眾號:老王Plus 掃描二維碼,關注個人公眾號,可以第一時間得到最新的個人文章和內容推送 本文版權歸作者所有,轉載請保留此聲明和原文鏈接 |
本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】
※教你寫出一流的銷售文案?
※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益
※回頭車貨運收費標準
※別再煩惱如何寫文案,掌握八大原則!
※超省錢租車方案
※產品缺大量曝光嗎?你需要的是一流包裝設計!