機器能預測 NBA 比賽結果嗎？

體育分析師每年都在問同一個問題。這篇來自葡萄牙理工學院的論文，給出了一個還算誠實的答案。

他們在做什麼？

Alves 和 Barbosa 兩位研究者，從 2015-16 球季開始，爬取了 NBA 將近十個球季的比賽數據，然後拿來訓練各種機器學習模型，讓演算法學著猜哪支球隊會贏。他們同時也做了 WNBA 版本，兩個聯盟的結果拿來比較。

他們測試的演算法超過十種，從最基礎的邏輯迴歸，到集成學習、深度神經網路都有。整個工具箱全部搬出來，逐一測試，看誰最有用。

直覺上，你可能覺得比賽結果跟球隊的投籃命中率、籃板數、助攻數有關。這些都對，但這篇研究最有趣的地方在於，這些現成的統計數字其實不夠用。

研究者自己設計了一批新的特徵，包括一支球隊最近五場、七場、十場的各項數據平均值，也就是近況熱度；加上兩場比賽之間的休息天數，以及下一場對手的相關資訊。最後還有一個叫做 Elo 評分的東西，每場比賽打完都會根據輸贏微調，贏球加分、輸球扣分，類似棋類比賽的積分制。

最後模型選出來的最重要特徵，幾乎全部都是這些新設計的變數，原始的比賽統計數字排名都很靠後。這說明一件事，預測誰會贏，關鍵在這支球隊現在的狀態，帳面實力反而排得很靠後。

NBA 2023-24 球季的最佳預測準確率，集成模型和神經網路都達到了 65.43%。聽起來好像不高，但這是籃球，任何能穩定超過 60% 的系統在這個領域都已經是認真的成果。

WNBA 的數字更高，2023 球季最好的幾個模型準確率達到 69%。研究者的解釋是 WNBA 競爭比較沒那麼激烈、球隊強弱差距更明顯，所以機器相對容易判斷。這個解讀本身就是一個關於兩個聯盟性質的有趣觀察。

這個問題的答案，在運動預測領域經常讓人意外。LSTM 和 CNN 這兩個深度學習架構，跟邏輯迴歸和集成方法的表現比起來，差距非常小。邏輯迴歸在某些情境下甚至跑贏了神經網路。

在結構化的表格型數據上，傳統方法往往已經夠用了。圖像辨識、語音辨識這類需要自動學習特徵的任務，才是深度學習真正拉得開差距的地方。

研究者特別提到，COVID-19 那幾個球季打亂了很多正常的比賽規律，讓模型更難抓住模式。這個影響甚至延續到了之後的球季。

機器學習模型學的是過去的模式，但有些事情發生之後，過去的模式就不再適用了。疫情只是其中一例，重大的規則改革、聯盟生態改變，都會讓用歷史數據訓練出來的模型需要重新校準。

把 NBA 和 WNBA 放在一起比較，是這篇論文比較獨特的地方。大多數類似的研究只聚焦 NBA，因為數據豐富、關注度高。研究者用網路爬蟲自己收集 WNBA 資料，填補了這個空白。

預測比賽，拼的就是資訊。誰掌握得多，誰就有優勢。機器學習在這裡做的，是把大量的歷史資訊壓縮成一個預測，速度和規模都是人工分析做不到的。65% 的準確率，其實已經足夠讓人認真對待。