国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

使用 .NET 5 體驗大數(shù)據和機器學習

開發(fā) 前端 大數(shù)據
在本文中,我們將介紹 .NET for Spark、大數(shù)據、ML.NET 和機器學習的基礎知識,我們將研究其 API 和功能,向你展示如何開始構建和消費你自己的 Spark 作業(yè)和 ML.NET 模型。

.NET 5 旨在提供統(tǒng)一的運行時和框架,使其在各平臺都有統(tǒng)一的運行時行為和開發(fā)體驗。微軟發(fā)布了與 .NET 協(xié)作的大數(shù)據(.NET for Spark)和機器學習(ML.NET)工具,這些工具共同提供了富有成效的端到端體驗。在本文中,我們將介紹 .NET for Spark、大數(shù)據、ML.NET 和機器學習的基礎知識,我們將研究其 API 和功能,向你展示如何開始構建和消費你自己的 Spark 作業(yè)和 ML.NET 模型。

什么是大數(shù)據

大數(shù)據是一個幾乎不言自明的行業(yè)術語。該術語指的是大型數(shù)據集,通常涉及 TB 甚至 PB 級的信息,這些數(shù)據集被用作分析的輸入,以揭示數(shù)據中的模式和趨勢。大數(shù)據與傳統(tǒng)工作負載之間的關鍵區(qū)別在于,大數(shù)據往往過于龐大、復雜或多變,傳統(tǒng)數(shù)據庫和應用程序無法處理。一種流行的數(shù)據分類方式被稱為 "3V"(譯注:即3個V,Volume 容量、Velocity 速度、Variety 多樣性)。

大數(shù)據解決方案是為適應高容量、處理復雜多樣的數(shù)據結構而定制的,并通過批處理(靜態(tài))和流處理(動態(tài))來管理速度。

大多數(shù)大數(shù)據解決方案都提供了在數(shù)據倉庫中存儲數(shù)據的方式,數(shù)據倉庫通常是一個為快速檢索和為并行處理而優(yōu)化的分布式集群。處理大數(shù)據往往涉及多個步驟,如下圖所示: 

使用 .NET 5 體驗大數(shù)據和機器學習

.NET 5 開發(fā)人員如果需要基于大型數(shù)據集進行分析和洞察,可以使用基于流行的大數(shù)據解決方案 Apache Spark 的 .NET 實現(xiàn):.NET for Spark。

.NET for Spark

.NET for Spark 基于 Apache Spark,這是一個用于處理大數(shù)據的開源分析引擎。它被設計為在內存中處理大量數(shù)據,以提供比其他依賴持久化存儲的解決方案更好的性能。它是一個分布式系統(tǒng),并行處理工作負載。它為加載數(shù)據、查詢數(shù)據、處理數(shù)據和輸出數(shù)據提供支持。

Apache Spark 支持 Java、Scala、Python、R 和 SQL。微軟創(chuàng)建了 .NET for Spark 以增加對 .NET 的支持。該解決方案提供了免費、開放、跨平臺的工具,用于使用 .NET 所支持的語言(如 C#和 F#)構建大數(shù)據應用程序,這樣你就可以使用現(xiàn)有的 .NET 庫,同時利用 SparkSQL 等 Spark 特性。 

使用 .NET 5 體驗大數(shù)據和機器學習

以下代碼展示了一個小而完整的 .NET for Spark 應用程序,它讀取一個文本文件并按降序輸出字數(shù)。 

  1. using Microsoft.Spark.Sql; 
  2.  
  3. namespace MySparkApp 
  4.     class Program 
  5.     { 
  6.         static void Main(string[] args) 
  7.         { 
  8.             // Create a Spark session. 
  9.             SparkSession spark = SparkSession.Builder().AppName("word_count_sample").GetOrCreate(); 
  10.  
  11.             // Create initial DataFrame. 
  12.             DataFrame dataFrame = spark.Read().Text("input.txt"); 
  13.  
  14.             // Count words. 
  15.             DataFrame words = dataFrame.Select(Functions.Split(Functions.Col("value"), " ").Alias("words")) 
  16.                 .Select(Functions.Explode(Functions .Col("words")) 
  17.                 .Alias("word")) 
  18.                 .GroupBy("word"
  19.                 .Count() 
  20.                 .OrderBy(Functions.Col("count").Desc()); 
  21.  
  22.             // Show results. 
  23.             words.Show(); 
  24.  
  25.             // Stop Spark session. 
  26.             spark.Stop(); 
  27.         } 
  28.     } 

在開發(fā)機器上配置 .NET for Spark 需要安裝幾個依賴,包括 Java SDK 和 Apache Spark。你可以在這里(https://aka.ms/go-spark-net)查看手把手的入門指南。

Spark for .NET 可在多種環(huán)境中運行,并可部署到云中運行。可部署目標包括 Azure HDInsight、Azure Synapse、AWS EMR Spark 和 Databricks 等。如果數(shù)據作為項目可用的一部分,你可以將其與其他 project 文件一起提交。

大數(shù)據通常與機器學習一起使用,以獲得關于數(shù)據的洞察。

什么是機器學習

首先,我們先來介紹一下人工智能和機器學習的基本知識。

人工智能(AI)是指計算機模仿人類智慧和能力,如推理和尋找意義。典型的人工智能技術通常是從規(guī)則或邏輯系統(tǒng)開始的。作為一個簡單的例子,想一想這樣的場景:你想把某樣東西分類為“面包”或“不是面包”。當你開始時,這似乎是一個簡單的問題,例如“如果它有眼睛,它就不是面包”。然而,你很快就會開始意識到,有很多不同的特征可以將某物定性為面包與非面包,而且特征越多,一系列的 if 語句就會越長越復雜,如下圖所示: 

使用 .NET 5 體驗大數(shù)據和機器學習

從上圖中的例子可以看出,傳統(tǒng)的、基于規(guī)則的人工智能技術往往難以擴展。這就是機器學習的作用。機器學習(ML)是人工智能的一個子集,它能在過去的數(shù)據中找到模式,并從經驗中學習,以對新數(shù)據采取行動。ML 允許計算機在沒有明確的邏輯規(guī)則編程的情況下進行預測。因此,當你有一個難以(或不可能)用基于規(guī)則的編程解決的問題時,你可以使用 ML。你可以把 ML 看作是 "對不可編程的編程"。

為了用 ML 解決“面包”與“非面包”的問題,你提供面包的例子和非面包的例子(如下圖所示),而不是實現(xiàn)一長串復雜的 if 語句。你將這些例子傳遞給一個算法,該算法在數(shù)據中找到模式,并返回一個模型,然后你可以用這個模型來預測尚未被模型“看到”的圖像是“面包”還是“不是面包”。 

使用 .NET 5 體驗大數(shù)據和機器學習

上圖展示了 AI 與 ML 的另一種思考方式。AI 將規(guī)則和數(shù)據作為輸入,預期輸出基于這些規(guī)則的答案。而 ML 則是將數(shù)據和答案作為輸入,輸出可用于對新數(shù)據進行歸納的規(guī)則。 

使用 .NET 5 體驗大數(shù)據和機器學習

AI 將規(guī)則和數(shù)據作為輸入,并根據這些規(guī)則輸出預期的答案。ML 將數(shù)據和答案作為輸入,并輸出可用于概括新數(shù)據的規(guī)則。

ML.NET

微軟在 2019 年 5 月的 Build 上發(fā)布了 ML.NET,這是一個面向.NET 開發(fā)人員的開源、跨平臺 ML 框架。在過去的九年里,微軟的團隊已經廣泛使用該框架的內部版本來實現(xiàn)流行的 ML 驅動功能;一些例子包括 Dynamics 365 欺詐檢測、PowerPoint 設計理念和 Microsoft Defender 防病毒威脅保護。

ML.NET 允許你在.NET 生態(tài)系統(tǒng)中構建、訓練和消費 ML 模型,而不需要 ML 或數(shù)據科學的背景。ML.NET 可以在任何.NET 運行的地方運行。Windows、Linux、macOS、on-prem、離線場景(如 WinForms 或 WPF 桌面應用)或任何云端(如 Azure)中。你可以將 ML.NET 用于各種場景,如表 1 所述。

ML.NET 使用自動機器學習(或稱 AutoML)來自動構建和訓練 ML 模型的過程,以根據提供的場景和數(shù)據找到最佳模型。你可以通過 AutoML.NET API 或 ML.NET 工具來使用 ML.NET 的 AutoML,其中包括 Visual Studio 中的 Model Builder 和跨平臺的 ML.NET CLI,如圖 6 所示。除了訓練最佳模型外,ML.NET 工具還生成在最終用戶.NET 應用程序中消費模型所需的文件和 C#代碼,該應用程序可以是任何.NET 應用程序(桌面、Web、控制臺等)。所有 AutoML 方案都提供了本地訓練選項,圖像分類也允許你利用云的優(yōu)勢,使用 Model Builder 中的 Azure ML 進行訓練。 

使用 .NET 5 體驗大數(shù)據和機器學習

你可以在 Microsoft Docs 中了解更多關于 ML.NET 的信息,網址是:https://aka.ms/mlnetdocs。

ML 和大數(shù)據結合

大數(shù)據和 ML 可以很好地結合在一起。讓我們構建一個同時使用 Spark for .NET 和 ML.NET 的管道,以展示大數(shù)據和 ML 如何一起工作。Markdown 是一種用于編寫文檔和創(chuàng)建靜態(tài)網站的流行語言,它使用的語法不如 HTML 復雜,但提供的格式控制比純文本更多。這是從 .NET 文檔庫中的摘取一段 markdown 文件內容: 

  1. --- 
  2. title: Welcome to .NET 
  3. description: Getting started with the .NET 
  4. family of technologies. 
  5. ms.date: 12/03/2019 
  6. ms.custom: "updateeachrelease" 
  7. --- 
  8.  
  9. # Welcome to .NET 
  10.  
  11. See [Get started with .NET Core](core/get-started.md) to learn how to create .NET Core apps. 
  12.  
  13. Build many types of apps with .NET, such as cloud ,IoT, and games using free cross-platform tools... 

破折號之間的部分稱為前頁(front matter),是使用 YAML 描述的有關文檔的元數(shù)據。以井號(#)開頭的部分是標題。兩個哈希(##)表示二級標題。“ .NET Core 入門”是一個超鏈接。

我們的目標是處理大量文檔,添加諸如字數(shù)和估計的閱讀時間之類的元數(shù)據,并將相似的文章自動分組在一起。

這是我們將構建的管道:

  • 為每個文檔建立字數(shù)統(tǒng)計;
  • 估計每個文檔的閱讀時間;
  • 根據“ TF-IDF”或“術語頻率/反向文檔頻率”為每個文檔創(chuàng)建前 20 個單詞的列表(這將在后面說明)。

第一步是拉取文檔存儲庫和需引用的應用程序。你可以使用任何包含 Markdown 文件的存儲庫及文件夾結構。本文使用的示例來自 .NET 文檔存儲庫,可從 https://aka.ms/dot-net-docs 克隆。

為.NET 和 Spark 準備本地環(huán)境之后,可以從https://aka.ms/spark-ml-example拉取項目。

解決方案文件夾包含一個批處理命令(在倉庫中有提供),你可以使用該命令來運行所有步驟。

處理 Markdown

DocRepoParser 項目以遞歸方式遍歷存儲庫中的子文件夾,以收集各文檔有關的元數(shù)據。Common 項目包含幾個幫助程序類。例如,F(xiàn)ilesHelper 用于所有文件 I/O。它跟蹤存儲文件和文件名的位置,并提供諸如為其他項目讀取文件的服務。構造函數(shù)需要一個標簽(一個唯一標識工作流的數(shù)字)和包含文檔的 repo 或頂級文件夾的路徑。默認情況下,它在用戶的本地應用程序數(shù)據文件夾下創(chuàng)建一個文件夾。如有必要,可以將其覆蓋。

MarkdownParser利用 Microsoft.Toolkit.Parsers解析 Markdown 的庫。該庫有兩個任務:首先,它必須提取標題和子標題;其次,它必須提取單詞。Markdown 文件以 "塊 "的形式暴露出來,代表標題、鏈接和其他 Markdown 特征。塊又包含承載文本的“Inlines”。例如,這段代碼通過迭代行和單元格來解析一個 TableBlock,以找到 Inlines。 

  1. case TableBlock table
  2.     table.Rows.SelectMany(r => r.Cells) 
  3.         .SelectMany(c => c.Inlines) 
  4.         .ForEach(i => candidate = RecurseInline(i, candidate, words, titles)); 
  5.         break; 

此代碼提取超鏈接的文本部分: 

  1. case HyperlinkInline hyper: 
  2.     if (!string.IsNullOrWhiteSpace(hyper.Text)) 
  3.     { 
  4.         words.Append(hyper.Text.ExtractWords()); 
  5.     } 
  6.     break; 

結果是一個 CSV 文件,如下圖所示: 

使用 .NET 5 體驗大數(shù)據和機器學習

第一步只是準備要處理的數(shù)據。下一步使用 Spark for .NET 作業(yè)確定每個文檔的字數(shù),閱讀時間和前 20 個術語。

構建 Spark Job

SparkWordsProcessor項目用來運行 Spark 作業(yè)。雖然該應用程序是一個控制臺項目,但它需要 Spark 來運行。runjob.cmd批處理命令將作業(yè)提交到正確配置的 Windows 計算機上運行。典型作業(yè)的模式是創(chuàng)建一個會話或“應用程序”,執(zhí)行一些邏輯,然后停止會話。 

  1. var spark = SparkSession.Builder() 
  2.     .AppName(nameof(SparkWordsProcessor)) 
  3.     .GetOrCreate(); 
  4. RunJob(); 
  5. spark.Stop(); 

通過將其路徑傳遞給 Spark 會話,可以輕松讀取上一步的文件。 

  1. var docs = spark.Read().HasHeader().Csv(filesHelper.TempDataFile); 
  2. docs.CreateOrReplaceTempView(nameof(docs)); 
  3. var totalDocs = docs.Count(); 

docs變量解析為一個DataFrame。Data Frame 本質上是一個帶有一組列和一個通用接口的表,用于與數(shù)據交互,而不管其底層來源是什么。可以從其他 data frame 中引用一個 data frame。SparkSQL 也可以用來查詢 data frame。你必須創(chuàng)建一個臨時視圖,該視圖為 data frame 提供別名,以便從 SQL 中引用它。通過CreateOrReplaceTempView方法,可以像這樣從 data frame 中查詢行:

  1. SELECT * FROM docs 

totalDocs變量檢索文檔中所有行的計數(shù)。Spark 提供了一個名為Split的將字符串分解為數(shù)組的函數(shù)。Explode函數(shù)將每個數(shù)組項變成一行: 

  1. var words = docs.Select(fileCol, 
  2.     Functions.Split(nameof(FileDataParse.Words) 
  3.     .AsColumn(), " "
  4.     .Alias(wordList)) 
  5.     .Select(fileCol, Functions.Explode(wordList.AsColumn()) 
  6.     .Alias(word)); 

該查詢?yōu)槊總€單詞或術語生成一行。這個 data frame 是生成術語頻率(TF)或者說每個文檔中每個詞的計數(shù)的基礎。 

  1. var termFrequency = words 
  2.     .GroupBy(fileCol, Functions.Lower(word.AsColumn()).Alias(word)) 
  3.     .Count() 
  4.     .OrderBy(fileCol, count.AsColumn().Desc()); 

Spark 有內置的模型,可以確定“術語頻率/反向文檔頻率”。在這個例子中,你將手動確定術語頻率來演示它是如何計算的。術語在每個文檔中以特定的頻率出現(xiàn)。一篇關于 wizard 的文檔可能有很高的“wizard”一詞計數(shù)。同一篇文檔中,"the "和 "is "這兩個詞的出現(xiàn)次數(shù)可能也很高。對我們來說,很明顯,“wizard”這個詞更重要,也提供了更多的語境。另一方面,Spark 必須經過訓練才能識別重要的術語。為了確定什么是真正重要的,我們將總結文檔頻率(document frequency),或者說一個詞在 repo 中所有文檔中出現(xiàn)的次數(shù)。這就是“按不同出現(xiàn)次數(shù)分組”: 

  1. var documentFrequency = words 
  2.     .GroupBy(Functions.Lower(word.AsColumn()) 
  3.     .Alias(word)) 
  4.     .Agg(Functions.CountDistinct(fileCol) 
  5.     .Alias(docFrequency)); 

現(xiàn)在是計算的時候了。一個特殊的方程式可以計算出所謂的反向文檔頻率(inverse document frequency),即 IDF。將總文檔的自然對數(shù)(加一)輸入方程,然后除以該詞的文檔頻率(加一)。 

  1. static double CalculateIdf(int docFrequency, int totalDocuments) => 
  2.     Math.Log(totalDocuments + 1) / (docFrequency + 1); 

在所有文檔中出現(xiàn)的詞比出現(xiàn)頻率較低的詞賦值低。例如,給定 1000 個文檔,一個在每個文檔中出現(xiàn)的詞與一個只在少數(shù)文檔中出現(xiàn)的詞(約 1 個)相比,IDF 為 0.003。Spark 支持用戶定義的函數(shù),你可以這樣注冊。

  1. spark.Udf().Register<intintdouble>(nameof(CalculateIdf), CalculateIdf); 

接下來,你可以使用該函數(shù)來計算 data frame 中所有單詞的 IDF: 

  1. var idfPrep = documentFrequency.Select(word.AsColumn(), 
  2.     docFrequency.AsColumn()) 
  3.         .WithColumn(total, Functions.Lit(totalDocs)) 
  4.         .WithColumn(inverseDocFrequency, 
  5.             Functions.CallUDF(nameof(CalculateIdf), docFrequency.AsColumn(), total.AsColumn() 
  6.         ) 
  7.     ); 

使用文檔頻率 data frame,增加兩列。第一列是文檔的單詞總數(shù)量,第二列是調用你的 UDF 來計算 IDF。還有一個步驟,就是確定“重要詞”。重要詞是指在所有文檔中不經常出現(xiàn),但在當前文檔中經常出現(xiàn)的詞,用 TF-IDF 表示,這只是 IDF 和 TF 的產物。考慮“is”的情況,IDF 為 0.002,在文檔中的頻率為 50,而“wizard”的 IDF 為 1,頻率為 10。相比頻率為 10 的“wizard”,“is”的 TF-IDF 計算結果為 0.1。這讓 Spark 對重要性有了更好的概念,而不僅僅是原始字數(shù)。

到目前為止,你已經使用代碼來定義 data frame。讓我們嘗試一下 SparkSQL。為了計算 TF-IDF,你將文檔頻率 data frame 與反向文檔頻率 data frame 連接起來,并創(chuàng)建一個名為termFreq_inverseDocFreq的新列。下面是 SparkSQL:

  1. var idfJoin = spark.Sql($"SELECT t.File, d.word, d.{docFrequency}, d.{inverseDocFrequency}, t.count, d.{inverseDocFrequency} * t.count as {termFreq_inverseDocFreq} from {nameof(documentFrequency)} d inner join {nameof(termFrequency)} t on t.word = d.word"); 

探索代碼,看看最后的步驟是如何實現(xiàn)的。這些步驟包括:

到目前為止所描述的所有步驟都為 Spark 提供了一個模板或定義。像 LINQ 查詢一樣,實際的處理在結果被具體化之前不會發(fā)生(比如計算出總文檔數(shù)時)。最后一步調用 Collect 來處理和返回結果,并將其寫入另一個 CSV。然后,你可以使用新文件作為 ML 模型的輸入,下圖是該文件的一部分: 

使用 .NET 5 體驗大數(shù)據和機器學習

Spark for .NET 使你能夠查詢和塑造數(shù)據。你在同一個數(shù)據源上建立了多個 data frame,然后添加它們以獲得關于重要術語、字數(shù)和閱讀時間的洞察。下一步是應用 ML 來自動生成類別。

預測類別

最后一步是對文檔進行分類。DocMLCategorization項目包含了 ML.NET 的Microsoft.ML包。雖然 Spark 使用的是 data frame,但 data view 在 ML.NET 中提供了類似的概念。

這個例子為 ML.NET 使用了一個單獨的項目,這樣就可以將模型作為一個獨立的步驟進行訓練。對于許多場景,可以直接從你的.NET for Spark 項目中引用 ML.NET,并將 ML 作為同一工作的一部分來執(zhí)行。

首先,你必須對類進行標記,以便 ML.NET 知道源數(shù)據中的哪些列映射到類中的屬性。在FileData 類使用 LoadColumn 注解,就像這樣: 

  1. [LoadColumn(0)] 
  2. public string File { get; set; } 
  3.  
  4. [LoadColumn(1)] 
  5. public string Title { get; set; } 

然后,你可以為模型創(chuàng)建上下文,并從上一步中生成的文件中加載 data view: 

  1. var context = new MLContext(seed: 0); 
  2. var dataToTrain = context.Data 
  3.     .LoadFromTextFile<FileData>(path: filesHelper.ModelTrainingFile, hasHeader: true, allowQuoting: true, separatorChar: ','); 

ML 算法對數(shù)字的處理效果最好,所以文檔中的文本必須轉換為數(shù)字向量。ML.NET 為此提供了FeaturizeText方法。在一個步驟中,模型分別:

  • 檢測語言
  • 將文本標記為單個單詞或標記
  • 規(guī)范化文本,以便對單詞的變體進行標準化和大小寫相似化
  • 將這些術語轉換為一致的數(shù)值或準備處理的“特征向量”

以下代碼將列轉換為特征,然后創(chuàng)建一個結合了多個特征的“Features”列。 

  1. var pipeline = context.Transforms.Text.FeaturizeText( 
  2.     nameof(FileData.Title).Featurized(), 
  3.     nameof(FileData.Title)).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Subtitle1).Featurized(), 
  4.     nameof(FileData.Subtitle1))).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Subtitle2).Featurized(), 
  5.     nameof(FileData.Subtitle2))).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Subtitle3).Featurized(), 
  6.     nameof(FileData.Subtitle3))).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Subtitle4).Featurized(), 
  7.     nameof(FileData.Subtitle4))).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Subtitle5).Featurized(), 
  8.     nameof(FileData.Subtitle5))).Append(context.Transforms.Text.FeaturizeText(nameof(FileData.Top20Words).Featurized(), 
  9.     nameof(FileData.Top20Words))).Append(context.Transforms.Concatenate(features, nameof(FileData.Title).Featurized(), 
  10.     nameof(FileData.Subtitle1).Featurized(), 
  11.     nameof(FileData.Subtitle2).Featurized(), 
  12.     nameof(FileData.Subtitle3).Featurized(), 
  13.     nameof(FileData.Subtitle4).Featurized(), 
  14.     nameof(FileData.Subtitle5).Featurized(), 
  15.     nameof(FileData.Top20Words).Featurized()) 
  16. ); 

此時,數(shù)據已經為訓練模型做了適當?shù)臏蕚洹S柧毷菬o監(jiān)督的,這意味著它必須用一個例子來推斷信息。你沒有將樣本類別輸入到模型中,所以算法必須通過分析特征如何聚類來找出數(shù)據的相互關聯(lián)。你將使用k-means 聚類算法。該算法使用特征計算文檔之間的“距離”,然后圍繞分組后的文檔“繪制”邊界。該算法涉及隨機化,因此兩次運行結果會是不相同的。主要的挑戰(zhàn)是確定訓練的最佳聚類大小。不同的文檔集最好有不同的最佳類別數(shù),但算法需要你在訓練前輸入類別數(shù)。

代碼在 2 到 20 個簇之間迭代,以確定最佳大小。對于每次運行,它都會獲取特征數(shù)據并應用算法或訓練器。然后,它根據預測模型對現(xiàn)有數(shù)據進行轉換。對結果進行評估,以確定每個簇中文檔的平均距離,并選擇平均距離最小的結果。 

  1. var options = new KMeansTrainer.Options 
  2.     FeatureColumnName = features, 
  3.     NumberOfClusters = categories, 
  4. }; 
  5.  
  6. var clusterPipeline = pipeline.Append(context.Clustering.Trainers.KMeans(options)); 
  7. var model = clusterPipeline.Fit(dataToTrain); 
  8. var predictions = model.Transform(dataToTrain); 
  9. var metrics = context.Clustering.Evaluate(predictions); 
  10. distances.Add(categories, metrics.AverageDistance); 

經過培訓和評估后,你可以保存最佳模型,并使用它對數(shù)據集進行預測。將生成一個輸出文件以及一個摘要,該摘要顯示有關每個類別的一些元數(shù)據并在下面列出標題。標題只是幾個功能之一,因此有時需要仔細研究細節(jié)才能使類別有意義。在本地測試中,教程之類的文檔歸于一組,API 文檔歸于另一組,而例外歸于它們自己的組。

ML zip 文件可與 Prediction Engine 一起用于其他項目中的新數(shù)據。

機器學習模型另存為單個 zip 文件。該文件可以包含在其他項目中,與 Prediction Engine 一起使用以對新數(shù)據進行預測。例如,你可以創(chuàng)建一個 WPF 應用程序,該應用程序允許用戶瀏覽目錄,然后加載并使用經過訓練的模型對文檔進行分類,而無需先對其進行訓練。

下一步是什么

Spark for .NET 計劃與.NET 5 同時在 GA(譯注:GA=General Availability,正式發(fā)布的版本)發(fā)布。請訪問 https://aka.ms/spark-net-roadmap 閱讀路線圖和推出功能的計劃。(譯注:.NET 5 正式發(fā)布時間已過,Spark for .NET 已隨 .NET 5 正式發(fā)布)

本文著重于本地開發(fā)體驗,為了充分利用大數(shù)據的力量,你可以將 Spark 作業(yè)提交到云中。有各種各樣的云主機可以容納 PB 級數(shù)據,并為你的工作負載提供數(shù)十個核的計算能力。Azure Synapse Analytics 是一項 Azure 服務,旨在承載大量數(shù)據,提供用于運行大數(shù)據作業(yè)的群集,并允許通過基于圖表的儀表盤進行交互式探索。若要了解如何將 Spark for .NET 作業(yè)提交到 Azure Synapse,請閱讀官方文檔(https://aka.ms/spark-net-synapse)。

下面這張表列舉了 ML.NET 機器學習的常見任務和場景: 

 

使用 .NET 5 體驗大數(shù)據和機器學習

 

 

 

 

 

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2017-05-08 15:15:39

大數(shù)據機器學習

2019-03-14 13:06:41

機器學習大數(shù)據數(shù)據科學

2017-09-01 10:32:56

2017-10-26 12:32:23

機器學習大數(shù)據藥物

2017-02-16 13:44:47

2018-03-18 16:10:24

2019-07-12 10:36:50

大數(shù)據互聯(lián)網工具

2014-06-19 13:29:29

機器學習大數(shù)據

2014-03-31 15:08:23

機器學習大數(shù)據

2017-12-01 08:44:36

機器學習大數(shù)據管理

2015-04-20 14:36:52

大數(shù)據大數(shù)據分析提升客戶體驗

2021-03-01 11:39:34

機器學習深度學習人工智能

2014-08-27 16:01:05

AppDynamics

2019-09-30 10:12:21

機器學習數(shù)據映射

2016-10-25 08:38:53

大數(shù)據DNA 變種癌癥

2016-06-07 10:28:07

大數(shù)據機器學習LSTM

2021-07-08 10:07:18

5G大數(shù)據機器人

2022-03-15 17:12:03

大數(shù)據機器學習人工智能

2013-03-22 09:24:06

大數(shù)據HadoopVertica

2018-06-20 11:34:19

Reddit數(shù)據科學機器學習
點贊
收藏

51CTO技術棧公眾號

青青成人在线| 欧美一区二区播放| 欧美一区二区免费| 国产熟女高潮视频| 国产一区二区三区成人欧美日韩在线观看 | 国产美女主播一区| 日本免费看黄色| 99久久久无码国产精品| 偷拍视频一区二区| 久久一区国产| 精品久久久久久一区二区里番| 国产精品二区不卡| 91精品免费看| 欧美mv日韩| 国产精品流白浆视频| 欧美丝袜美腿| 亚洲线精品一区二区三区| 欧美色图天堂| 午夜一区二区三区视频| 亚欧激情乱码久久久久久久久| 亚洲啪啪av| 国产欧美日韩在线观看视频| 色综合视频一区中文字幕| 日韩毛片免费看| 在线精品91av| 成人国产网站| 久久成人这里只有精品| 秋霞一区二区三区| 久久久久久久国产| 牛牛影视一区二区三区免费看| 欧美大片在线影院| 欧美午夜寂寞| 国产精品久久久久久久av大片| 精品视频99| 亚洲伊人久久大香线蕉av| 欧美国产综合| 蜜桃精品久久久久久久免费影院| 亚洲一区一卡| 亚洲啪啪av| 国产精品一区二区男女羞羞无遮挡 | 麻豆国产91在线播放| 正在播放久久| 99久久国产综合色|国产精品| 九九爱精品视频| 国产精品久久久久一区二区三区| hbad中文字幕| 精品视频一区二区三区免费| 免费影视亚洲| 欧美xxxx18国产| 久久精品99久久无色码中文字幕| 精品久久久久久乱码天堂| 国产综合色视频| 久久综合久久色| 黑人极品videos精品欧美裸| 国产区在线观看| 上原亚衣av一区二区三区| 久久中文字幕导航| 亚洲一区二区三区四区在线播放| 首页欧美精品中文字幕| 日本在线xxx| 欧美日韩在线视频一区二区| 黄色在线免费观看网站| 国模精品视频一区二区| 亚洲无吗在线| 国产在线播放观看| 亚洲成a人片在线不卡一二三区| 欧美四级在线| 奇米四色中文综合久久| 免费亚洲婷婷| 久久撸在线视频| 制服丝袜中文字幕亚洲| 免费一级欧美片在线观看网站| av日韩免费电影| 99热在这里有精品免费| 国产一区二区三区福利| 三级精品视频久久久久| 天天做天天爱天天综合网| 无码人妻精品一区二区蜜桃百度| 亚洲一二三区在线观看| 中文字幕在线看片| 91精品久久久久久久久久另类| 美腿丝袜在线亚洲一区| 99reav2| 精品视频在线观看日韩| 日韩av大片| 大地资源网在线观看免费官网| 欧美日韩午夜视频在线观看| 亚洲欧美电影| www.久久久| 久久免费精品国产久精品久久久久| 成人免费视频| 91高清免费视频| 国产乱妇无码大片在线观看| 四虎影院在线域名免费观看| 欧美精品电影免费在线观看| 精品亚洲欧美一区| 超碰免费在线| 91超碰caoporn97人人| 精品一区二区三区香蕉蜜桃| 九色在线视频| 国产97在线|亚洲| jiyouzz国产精品久久| 污污网站在线看| 99re视频在线播放| 亚洲最大成人综合| 综合久久成人| 国产毛片视频网站| 亚洲а∨天堂久久精品9966| 欧美日韩岛国| 在线观看午夜看亚太视频| 欧美激情精品久久久久久大尺度| 国产又粗又猛又爽又黄91精品| 精品视频在线一区二区| 91超碰在线免费观看| 亚洲综合成人网| 久久porn| 日本va中文字幕| 色吧影院999| 丁香婷婷深情五月亚洲| 成人欧美大片| 最新不卡av| 亚洲成色777777在线观看影院| 亚洲中午字幕| 欧美尤物美女在线| 国产精品乱码视频| 欧美亚洲综合久久| 欧美日韩国产一区精品一区| 水中色av综合| 99re视频在线播放| 欧美系列在线观看| 国产综合精品一区| 99视频在线观看地址| 国产一区二区三区四区五区在线| 欧美性猛交xxxx乱大交| 久久中文字幕二区| 久久精品色图| 国产精品一区视频| 4hu四虎永久在线影院成人| 久久久国产亚洲精品| 不卡一本毛片| 中国丰满熟妇xxxx性| 色青青草原桃花久久综合 | 国产精品久久国产三级国电话系列| 亚洲成人av电影在线| 一本一本久久a久久综合精品| 欧美成熟毛茸茸| 国产自产精品| 亚洲精品电影在线| 成人黄色网址在线观看| 欧美精品三级在线| jizzjizzji欧美| 国产裸体写真av一区二区| 精品二区三区线观看| 亚洲高清在线| 午夜影视一区二区三区| 成人小视频在线看| 日av在线播放中文不卡| 在线观看www91| 精品一区二区三区久久| 成人在线分类| 四虎影院在线播放| 亚洲va久久久噜噜噜久久狠狠| 日韩在线观看免费全| 亚洲精品伦理在线| 亚洲久久视频| jizz欧美| h网址在线观看| 久久国产精品免费一区| 在线精品播放av| 亚洲欧美一区二区不卡| 午夜精彩国产免费不卡不顿大片| 成人影院在线看| 黄色激情在线视频| 国产精品99久久99久久久二8| 91精品国产色综合久久ai换脸| 不卡的av电影| 欧美69wwwcom| 91tv亚洲精品香蕉国产一区| 裸体网站视频| 视频一区二区在线观看| 久久久免费精品| 4438成人网| 国产精品高潮粉嫩av| 成人影院在线观看视频| 久久99精品久久久久久久久久| 国产日韩一区欧美| 国产a级片网站| 国产精品揄拍500视频| 欧美性感美女h网站在线观看免费| 成+人+亚洲+综合天堂| 岛国一区二区三区| 亚洲精品国产精品乱码不99| 136国产福利精品导航| 久久精品人人做| 日本精品视频一区二区三区| 欧美成人乱码一区二区三区| 操日韩av在线电影| 丁香花在线影院观看在线播放| 污的网站在线观看| 亚洲国产免费|