球場上有十個人在跑：AI 如何記住每一個的身分

轉播鏡頭裡，十個人同時在跑。

這是球場的常態。一場 NBA 比賽有幾百個回合，每個回合裡球員不斷交疊、互相遮擋、在掩護後急停又切出。對人眼來說，辨認誰是誰靠的是號碼、臉孔、身形，加上對這個球員慣用路線的記憶。對 AI 來說，這是一個身分問題。

追蹤比偵測難

多目標追蹤（MOT）是電腦視覺裡的老問題，在行人偵測和自動駕駛領域已經有大量研究。但球場場景有幾個特殊之處，讓這個問題更難。

每隊五名球員穿同樣顏色的球衣，外觀高度相似。掩護戰術讓兩名球員在瞬間緊貼在一起，偵測框重疊。快攻和全場轉換時鏡頭跟拍，產生模糊和抖動。一個系統如果在這些時刻把兩個球員的 ID 搞混，後面所有基於位置的統計都會跟著出錯，球員的個人數據會被合算到錯誤的人名下。

偵測本身已經夠成熟，知道「這一幀某個位置有人」不難。難的是跨幀維持「這個人和上一幀那個人是同一個人」。

GameSense：追蹤接行動辨識

Rong Diao 發表於 Scientific Reports 2026 年的論文提出一個叫 GameSense 的框架，由兩個子系統串接。

第一個是 BPTN（Basketball Player Tracking Network），負責追蹤，也就是在每一幀定位每個球員，並在下一幀維持同一個身分標籤。第二個是 BPAN（Basketball Player Analytics Network），負責理解，也就是辨識這些球員在做什麼動作。

追蹤是理解的前提。如果你不知道這個人是誰，你也沒辦法說他投了幾個三分球。

短期與長期記憶並行

BPTN 的核心是一個雙層記憶結構。

短期記憶（short-term memory）保留最近 7 幀，負責捕捉球員的即時位移和連續動作。長期記憶（long-term memory）保留最近 28 幀，負責在遮擋發生後還能維持身分的連貫性。當球員被隊友或裁判擋住幾秒後又出現，系統要靠長期記憶裡累積的軌跡特徵重新認出他，而不是把他當成新出現的人。

論文的消融研究把這件事說得很清楚。只用短期記憶，HOTA（一個同時衡量偵測和關聯品質的指標）是 76.9；只用長期，是 78.1；兩者合併，是 81.6。身分切換（ID switch）次數也從競品系統的 2,659 次降到 2,164 次，在整份 SportsMOT 資料集的 45,000 幀影片裡，每一次切換都意味著某段球員軌跡被錯誤中斷。

在競品裡的位置

SportsMOT 資料集涵蓋籃球、足球、排球，共 45 段高畫質比賽片段，是評估運動場景追蹤的標準基準。

BPTN 的 HOTA 81.6 超過了同期的 SportMamba 77.3、DiffMOT 76.2 和 Deep-EIoU 77.2，這些都是 2024 到 2025 年的新方法，不是幾年前的舊基線。系統跑在單張 RTX 3090 上，處理 720p 影片的速度約為每秒 18 幀，勉強達到即時分析的門檻。

從位置到動作

知道球員在哪裡之後，BPAN 再問下一個問題：他們在做什麼。

框架把籃球動作分成八類：2 分球進或未進、3 分球進或未進、罰球進或未進、中距離進或未進。每一種動作對應的場景不同，3 分球有明確的站位區域，罰球有固定的起手儀式，但系統得從影片片段自己看出來。

在 Basketball-51 資料集上，這個資料集來自 51 場 NBA 比賽，超過一萬段影片片段，BPAN 的準確率達到 92.76%，F1 分數 91.74%，優於 Video-Swin 的 85.08% 和 ACA-Net 的 92.05%。

系統哪裡還會出錯？

論文沒有只說成績，也花相當篇幅分析失敗案例。

最常見的問題是掩護戰術中的身分切換。兩名同色球衣的球員緊貼在一起時，外觀特徵幾乎一樣，偵測框大面積重疊，系統有時無法確認匹配關係，選到錯誤的一方。

長時間遮擋也是個極限。長期記憶的視窗是 28 幀，換算成 25 FPS 的影片大約是一秒多。如果一個球員被裁判完全擋住超過這個時間，系統會失去他的軌跡，他重新出現後被當成新球員重新編號。

動作辨識則卡在中距離投籃和罰球之間的混淆。站在罰球線附近靜止出手的場景，在鏡頭裁切後看起來和罰球很像。系統沒有場地座標的資訊，無法直接判斷站位在罰球線裡側還是外側，只能靠視覺動作特徵猜測，準確率相對偏低。

身分是時間問題

追蹤的困難在連貫性。

偵測已經很成熟，在靜態幀裡找出球員位置不難。難的是在遮擋、碰撞、快速移動發生後，系統能不能繼續知道「這個人是誰」，而不是把他當成陌生人重新處理。

記憶機制的引入，把這個問題從空間問題轉換成時間問題。辨識一個球員，不只看他現在的位置，還要看他過去幾秒移動的方式。這個邏輯和人類分析師看比賽的方式很接近，差別在於人類靠直覺做到，而系統需要一個明確的記憶結構來實現，並且明確說明這個結構的極限在哪裡。