預測分析模型及其常用算法解析

2024年1月30日
讀畢需時 7 分鐘

預測分析模型旨在評估過去的數據，發現模式，分析趨勢，並利用這些洞察來預測未來的趨勢。預測分析工具由多種不同的模型和算法驅動，可應用於廣泛的用例。確定哪些預測建模技術最適合是充分利用預測分析解決方案並利用數據做出有洞察力決策的關鍵。例如，零售商希望減少客戶流失，他們不會使用醫院預測未來十天急診室病人數量所用的相同預測分析模型。

分類模型 (Classification Model)

分類模型在某些方面是幾種預測分析模型中最簡單的。它根據從歷史數據中學到的內容將數據分類。

分類模型最適合回答是非問題，提供廣泛的分析，有助於指導果斷行動。這些模型可以回答如下問題：

對於零售商，“這個客戶即將流失嗎？” 對於貸款提供者，“這筆貸款會被批准嗎？”或“這位申請人可能會違約嗎？” 對於網上銀行提供者，“這是一筆欺詐交易嗎？” 分類模型的廣泛應用可能性，以及它可以用新數據重新訓練的便利性，意味著它可以應用於許多不同行業。

聚類模型（Clustering Model）

聚類模型根據相似屬性將數據分類為單獨的、嵌套的智能組。如果一家電子商務鞋類公司希望為其客戶實施針對性的營銷活動，他們可以瀏覽成千上萬的記錄來為每個個體創建量身定制的策略。但這是時間上最有效的使用方法嗎？可能不是。使用聚類模型，他們可以根據共同特徵快速將客戶分為相似的組，並為每個組制定更大規模的策略。這種預測建模技術的其他用例可能包括根據貸款屬性將貸款申請人分組到“智能桶”中，識別城市中犯罪率高的區域，以及將SaaS客戶數據分組以識別全球使用模式。

預測模型（Forecast Model）

作為最廣泛使用的預測分析模型之一，預測模型涉及度量值預測，根據從歷史數據中的學習來估計新數據的數值。

此模型可應用於任何有歷史數字數據的場景。情景包括：SaaS公司可以估計他們在特定周內可能轉化的客戶數量。呼叫中心可以預測他們每小時將接到多少支援電話。鞋店可以計算他們在特定銷售期間應保持的庫存量，以滿足需求。預測模型還考慮多個輸入參數。如果一家餐廳老闆想預測她在接下來一周可能接待的顧客數量，模型將考慮可能影響這一點的因素，例如：附近是否有活動？天氣預報是怎樣的？是否有流行病？

異常值模型（Outliers Model）

異常值模型圍繞數據集內的異常數據條目。它可以單獨或與其他數字和類別結合識別異常數字。

記錄支援電話的激增，這可能表明產品故障，可能導致召回在交易中或保險索賠中發現異常數據，以識別欺詐在您的NetOps日誌中發現不尋常的信息，並注意到即將發生的計劃外停機的跡象異常值模型對於零售和金融領域的預測分析特別有用。例如，在識別欺詐交易時，該模型可以評估不僅是金額，還有位置、時間、購買歷史和購買的性質（即，1000美元購買電子產品的可能性不太可能是欺詐，與同等金額購買書籍或常用公用事業相比）。

時間序列模型（Time Series Model）

時間序列模型包括使用時間作為輸入參數捕獲的一系列數據點。它使用過去一年的數據來開發一個數字度量，並使用該度量預測接下來的三到六周數據。此模型的用例包括過去三個月每天接到的電話數量、過去20個季度的銷售量，或過去六周在某醫院出現的病人數量。它是一種了解單一度量隨時間發展方式的強大手段，其準確性超出簡單平均值。它還考慮了可能影響度量的季節或事件。

如果一家沙龍的老闆希望預測有多少人可能會光顧他的生意，他可能會轉向平均過去90天訪客總數的粗略方法。然而，增長並不總是靜態或線性的，時間序列模型可以更好地模擬指數增長，並更好地將模型與公司的趨勢對齊。它還可以同時為多個項目或多個地區預測，而不僅僅是一次一個。

時間序列模型常見預測算法總的來說，預測分析算法可以分為兩組：機器學習和深度學習。

機器學習涉及我們在表格中看到的結構化數據。此類算法包括線性和非線性品種。線性算法訓練速度更快，而非線性算法則更適合它們可能面臨的問題（這些問題通常是非線性的）。深度學習是機器學習的一個子集，更適合處理音頻、視頻、文本和圖像。在機器學習預測建模中，可以應用多種不同的算法。以下是一些最常用於驅動上述描述的預測分析模型的算法。

隨機森林（Random Forest）

隨機森林或許是最受歡迎的分類算法，能夠進行分類和回歸。它可以準確地分類大量數據。

“隨機森林”之名源於該算法是決策樹的組合。每棵樹都依賴於一個隨機向量的值，這個向量獨立抽樣，並且對“森林”中的所有樹都有相同的分佈。每一棵都發展到最大可能程度。

預測分析算法嘗試通過使用“提升”（一種根據上一次分類調整觀察權重的技術）或“裝袋”（從訓練樣本中隨機選擇數據子集，允許替換）來實現盡可能低的錯誤。隨機森林使用裝袋。如果您有大量樣本數據，您可以選擇一個子集進行訓練，然後選擇另一個子集進行訓練（允許重疊）。所有這些都可以並行完成。從您的數據中取多個樣本來創建平均值。

隨機森林數據集雖然單獨的樹可能是“弱學習者”，但隨機森林的原則是它們可以共同構成一個“強學習者”。

隨機森林模型之所以受歡迎，是因為它有多種優勢：

在大型數據庫上運行時準確且高效多棵樹降低了較小集合或單棵樹的方差和偏差抗過度擬合可以處理成千上萬的輸入變量，無需刪除變量可以估計哪些變量在分類中很重要提供估計缺失數據的有效方法即使大量數據丟失，也能保持準確性兩值廣義線性模型（GLM）廣義線性模型（GLM）是普通線性模型的更複雜變體。它採用後者模型的多個變量對連續變量的影響進行比較，然後從不同的分佈中提取，以找到“最佳擬合”模型。

假設您有興趣了解冬季大衣的客戶購買行為。普通線性回歸可能顯示，每下降一度，就會多賣出300件冬季大衣。雖然如果溫度從9度下降到3度，可能會多賣出2100件大衣這一點看起來合乎邏輯，但如果溫度下降到-20度，我們會看到數量增加到完全相同的程度，這似乎不太合邏輯。

廣義線性模型將縮小變量列表，可能表明一旦達到某個溫度，銷售量會增加，而一旦達到另一個溫度，銷售量會下降或趨於平穩。這種算法的優勢在於它訓練非常快。響應變量可以有任何形式的指數分佈類型。廣義線性模型還能處理分類預測器，同時相對容易解釋。此外，它提供了對每個預測器如何影響結果的清晰理解，並且相當抗過度擬合。然而，它需要相對較大的數據集，並且容易受到異常值的影響

梯度提升模型（GBM）梯度提升模型產生由決策樹組成的預測模型（每一個都是“弱學習者”，就像隨機森林一樣），然後進行概括。正如其名稱所示，它使用“提升”機器學習技術，與隨機森林使用的裝袋不同。它用於分類模型。GBM的區別特徵是它一次構建一棵樹。每棵新樹都有助於糾正之前訓練的樹所犯的錯誤 - 與隨機森林模型不同，在隨機森林模型中，樹之間沒有關聯。它經常用於機器學習排名，如雅虎和Yandex搜索引擎。梯度提升模型通過GBM方法，數據更具表現力，基準結果顯示，就數據的整體徹底性而言，GBM方法更受青睞。然而，由於它逐個構建樹，因此也需要更長的時間。儘管如此，其較慢的性能被認為會導致更好的泛化。

K-均值（K-Means） K-均值是一種非常受歡迎、高速的算法，涉及根據相似性將未標記的數據點放置在不同組中。該算法用於聚類模型。例如，Tom和Rebecca在第一組，John和Henry在第二組。Tom和Rebecca有非常相似的特徵，但Rebecca和John的特徵截然不同。K-均值嘗試找出個體的共同特徵，並將它們分組在一起。當您擁有大型數據集並希望實施個性化計劃時，這特別有幫助 - 對一百萬人來說，這很難做到。K-均值在醫療保健預測分析的背景下，算法可能會將一組患者樣本分為五個不同的群組。一個特定群組共享多個特徵：他們不運動，他們的醫院就診記錄不斷增加（一年三次，然後第二年十次），他們都有患糖尿病的風險。根據相似之處，我們可以為這個群組積極推薦飲食和運動計劃。

先知（Prophet）先知算法用於時間序列和預測模型。它是Facebook開發的開源算法，該公司內部用於預測。

先知算法非常適用於容量規劃，例如分配資源和設定銷售目標。由於完全自動化的預測算法的性能不一致，以及它們的僵化性，成功地自動化這一過程一直很困難。另一方面，手動預測需要高度經驗豐富的分析師花費數小時的勞動。先知算法先知不僅是自動的；它還足夠靈活，可以納入啟發式和有用的假設。該算法在處理混亂數據時的速度、可靠性和堅固性使其成為時間序列和預測分析模型的受歡迎的替代算法選擇。無論是專家分析師還是預測經驗較少的人都發現它很有價值。

預測分析模型總結

如何確定哪種預測分析模型最適合您的需求？您需要首先確定您希望回答哪些預測問題，更重要的是，您希望如何使用該信息。考慮每種模型的優勢，以及它們如何可以通過不同的預測分析算法進行優化，以決定如何最好地為您的組織使用它們。

AI PREDICTION