
機器能預測NBA比賽結果嗎
體育分析師每年都在問同一個問題。這篇來自葡萄牙理工學院的論文,給出了一個還算誠實的答案。
他們在做什麼
Alves 和 Barbosa 兩位研究者,從 2015-16 球季開始,爬取了 NBA 將近十個球季的比賽數據,然後拿來訓練各種機器學習模型,讓演算法學著猜哪支球隊會贏。他們同時也做了 WNBA 版本,兩個聯盟的結果拿來比較。
他們測試的演算法超過十種,從最基礎的邏輯迴歸,到集成學習、深度神經網路都有。整個工具箱全部搬出來,逐一測試,看誰最有用。
預測比賽靠什麼
直覺上,你可能覺得比賽結果跟球隊的投籃命中率、籃板數、助攻數有關。這些都對,但這篇研究最有趣的地方在於,這些現成的統計數字其實不夠用。
研究者自己設計了一批新的特徵,包括一支球隊最近五場、七場、十場的各項數據平均值,也就是近況熱度;加上兩場比賽之間的休息天數,以及下一場對手的相關資訊。最後還有一個叫做 Elo 評分的東西,每場比賽打完都會根據輸贏微調,贏球加分、輸球扣分,類似棋類比賽的積分制。
最後模型選出來的最重要特徵,幾乎全部都是這些新設計的變數,原始的比賽統計數字排名都很靠後。這說明一件事,預測誰會贏,關鍵在這支球隊現在的狀態,帳面實力反而排得很靠後。
準確率大概在哪裡
NBA 2023-24 球季的最佳預測準確率,集成模型和神經網路都達到了 65.43%。聽起來好像不高,但這是籃球,任何能穩定超過 60% 的系統在這個領域都已經是認真的成果。
WNBA 的數字更高,2023 球季最好的幾個模型準確率達到 69%。研究者的解釋是 WNBA 競爭比較沒那麼激烈、球隊強弱差距更明顯,所以機器相對容易判斷。這個解讀本身就是一個關於兩個聯盟性質的有趣觀察。
深度學習有沒有比較厲害
這個問題的答案,在運動預測領域經常讓人意外。LSTM 和 CNN 這兩個深度學習架構,跟邏輯迴歸和集成方法的表現比起來,差距非常小。邏輯迴歸在某些情境下甚至跑贏了神經網路。
在結構化的表格型數據上,傳統方法往往已經夠用了。圖像辨識、語音辨識這類需要自動學習特徵的任務,才是深度學習真正拉得開差距的地方。
新冠疫情的那幾年
研究者特別提到,COVID-19 那幾個球季打亂了很多正常的比賽規律,讓模型更難抓住模式。這個影響甚至延續到了之後的球季。
機器學習模型學的是過去的模式,但有些事情發生之後,過去的模式就不再適用了。疫情只是其中一例,重大的規則改革、聯盟生態改變,都會讓用歷史數據訓練出來的模型需要重新校準。
這篇研究有什麼意義
把 NBA 和 WNBA 放在一起比較,是這篇論文比較獨特的地方。大多數類似的研究只聚焦 NBA,因為數據豐富、關注度高。研究者用網路爬蟲自己收集 WNBA 資料,填補了這個空白。
預測比賽,拼的就是資訊。誰掌握得多,誰就有優勢。機器學習在這裡做的,是把大量的歷史資訊壓縮成一個預測,速度和規模都是人工分析做不到的。65% 的準確率,其實已經足夠讓人認真對待。