
球場上有十個人在跑:AI 如何記住每一個的身分
偵測已經很成熟,在靜態幀裡找出球員位置不難。真正的挑戰是在遮擋、碰撞、快速移動發生後,系統能不能繼續知道「這個人是誰」,而不是把他當成陌生人重新處理。
轉播鏡頭裡,十個人同時在跑。
這是球場的常態,而不是例外。一場 NBA 比賽有幾百個回合,每個回合裡球員不斷交疊、互相遮擋、在掩護後急停又切出。對人眼來說,辨認誰是誰靠的是號碼、臉孔、身形,加上對這個球員慣用路線的記憶。對 AI 來說,這是一個身分問題。
追蹤比偵測難
多目標追蹤(MOT)是電腦視覺裡的老問題,在行人偵測和自動駕駛領域已經有大量研究。但球場場景有幾個特殊之處,讓這個問題更難。
每隊五名球員穿同樣顏色的球衣,外觀高度相似。掩護戰術讓兩名球員在瞬間緊貼在一起,偵測框重疊。快攻和全場轉換時鏡頭跟拍,產生模糊和抖動。一個系統如果在這些時刻把兩個球員的 ID 搞混,後面所有基於位置的統計都會跟著出錯,球員的個人數據會被合算到錯誤的人名下。
偵測本身已經夠成熟,知道「這一幀某個位置有人」不難。難的是跨幀維持「這個人和上一幀那個人是同一個人」。
GameSense:追蹤接行動辨識
Rong Diao 發表於 Scientific Reports 2026 年的論文提出一個叫 GameSense 的框架,由兩個子系統串接。
第一個是 BPTN(Basketball Player Tracking Network),負責追蹤,也就是在每一幀定位每個球員,並在下一幀維持同一個身分標籤。第二個是 BPAN(Basketball Player Analytics Network),負責理解,也就是辨識這些球員在做什麼動作。
追蹤是理解的前提。如果你不知道這個人是誰,你也沒辦法說他投了幾個三分球。
短期與長期記憶並行
BPTN 的核心是一個雙層記憶結構。
短期記憶(short-term memory)保留最近 7 幀,負責捕捉球員的即時位移和連續動作。長期記憶(long-term memory)保留最近 28 幀,負責在遮擋發生後還能維持身分的連貫性。當球員被隊友或裁判擋住幾秒後又出現,系統要靠長期記憶裡累積的軌跡特徵重新認出他,而不是把他當成新出現的人。
論文的消融研究把這件事說得很清楚。只用短期記憶,HOTA(一個同時衡量偵測和關聯品質的指標)是 76.9;只用長期,是 78.1;兩者合併,是 81.6。身分切換(ID switch)次數也從競品系統的 2,659 次降到 2,164 次,在整份 SportsMOT 資料集的 45,000 幀影片裡,每一次切換都意味著某段球員軌跡被錯誤中斷。
在競品裡的位置
SportsMOT 資料集涵蓋籃球、足球、排球,共 45 段高畫質比賽片段,是評估運動場景追蹤的標準基準。
BPTN 的 HOTA 81.6 超過了同期的 SportMamba 77.3、DiffMOT 76.2 和 Deep-EIoU 77.2,這些都是 2024 到 2025 年的新方法,不是幾年前的舊基線。系統跑在單張 RTX 3090 上,處理 720p 影片的速度約為每秒 18 幀,勉強達到即時分析的門檻。
從位置到動作
知道球員在哪裡之後,BPAN 再問下一個問題:他們在做什麼。
框架把籃球動作分成八類:2 分球進或未進、3 分球進或未進、罰球進或未進、中距離進或未進。每一種動作對應的場景不同,3 分球有明確的站位區域,罰球有固定的起手儀式,但系統得從影片片段自己看出來。
在 Basketball-51 資料集上,這個資料集來自 51 場 NBA 比賽,超過一萬段影片片段,BPAN 的準確率達到 92.76%,F1 分數 91.74%,優於 Video-Swin 的 85.08% 和 ACA-Net 的 92.05%。
系統哪裡還會出錯?
論文沒有只說成績,也花相當篇幅分析失敗案例。
最常見的問題是掩護戰術中的身分切換。兩名同色球衣的球員緊貼在一起時,外觀特徵幾乎一樣,偵測框大面積重疊,系統有時無法確認匹配關係,選到錯誤的一方。
長時間遮擋也是個極限。長期記憶的視窗是 28 幀,換算成 25 FPS 的影片大約是一秒多。如果一個球員被裁判完全擋住超過這個時間,系統會失去他的軌跡,他重新出現後被當成新球員重新編號。
動作辨識則卡在中距離投籃和罰球之間的混淆。站在罰球線附近靜止出手的場景,在鏡頭裁切後看起來和罰球很像。系統沒有場地座標的資訊,無法直接判斷站位在罰球線裡側還是外側,只能靠視覺動作特徵猜測,準確率相對偏低。
身分是時間問題
追蹤的核心困難不是偵測,而是連貫性。
偵測已經很成熟,在靜態幀裡找出球員位置不難。真正的挑戰是在遮擋、碰撞、快速移動發生後,系統能不能繼續知道「這個人是誰」,而不是把他當成陌生人重新處理。
記憶機制的引入,把這個問題從空間問題轉換成時間問題。辨識一個球員,不只看他現在的位置,還要看他過去幾秒移動的方式。這個邏輯和人類分析師看比賽的方式很接近,差別在於人類靠直覺做到,而系統需要一個明確的記憶結構來實現,並且明確說明這個結構的極限在哪裡。