type
status
date
slug
summary
tags
category
icon
password
从高阶数据看足球比赛
Author: bandoumi
引言
这是 2018-2019 赛季穆斯塔菲和范戴克在英超赛场上的统计数据,相信经历过那个赛季的阿森纳球迷一定不会感到陌生。

从图上看,不能说穆斯塔菲更胜一筹,但至少可以说两人旗鼓相当,各有千秋。也正是这个赛季,范戴克帮助利物浦拿到了阔别多年的欧冠奖杯,个人入选 PFA 英超年度最佳阵容,荣膺欧洲最佳球员,并在金球奖的评比中仅以微弱的劣势输给梅西,屈居第二。没有人会质疑,18-19 赛季的范戴克就是当时世界上最好的后卫。然而,作为阿森纳主力中后卫的穆斯塔菲,却贡献了相当多的失误和摊手名场面,令无数枪迷无可奈何。随着大卫·路易斯在 19 年夏窗的加盟,穆斯塔菲迅速失去主力位置,最终在 21 年冬窗免签离开了阿森纳。数据和现实表现的巨大反差,让我们不禁想问,是数据在“说谎”吗?
高阶数据
想要回答这个问题,我们首先需要思考:数据是什么?(我个人的见解是)一方面,数据是场上表现的直接反映;另一方面,数据是场上表现的子集。因此,数据是客观的,也是片面的。正如上述穆斯塔菲和范戴克的对比,简单的统计数据,如传球数、传球成功率、射门数、射正率、扑救次数、抢断次数等等,无法全面地衡量球员的比赛水平和比赛状态。我们需要更加“深入”的数据,帮助我们分析和认识足球比赛。而这,就是近 10 年在足球领域逐渐发展的高阶数据(Advanced metric)。
实际上,不仅仅是足球。随着计算机科学和数据科学的进步,数据分析已经渗透到了各项体育运动中。也许你看过电影《点球成金》(Moneyball)。影片改编自同名纪实著作,讲述的正是美国大联盟球队奥克兰运动家的球队经理采用数据分析,挑选球员组建队伍并取得的惊人成绩的故事。在篮球中,也诞生了像 EPM(Estimated Plus-Minus)这样被广泛认可的量化球员对比赛实际贡献的高阶数据。相比之下,足球数据分析的发展显得艰难了许多。最根本的原因,就是足球的复杂性。棒球运动可以拆解为固定场景下运动员之间的一对一。篮球在规则上有 24 秒的进攻回合时间限制,因此可以将比赛分解到每个回合内进行分析。足球比赛人数多,场地大,这意味着影响结果的因素极多。同时,每场比赛存在相当多的“混沌”时间,即比赛双方都没有真正控制皮球,很难直接定义进攻或防守回合。此外,90 分钟的比赛往往只有两三个进球,而进球是赢得比赛胜利的唯一评判标准,这表明比赛的绝大多数时间都是“无意义”的(指对比分没有直接影响)。从数据分析的角度,与篮球每场比赛 80-90 个进球数相比,在数据量上便天然落了下风。
预期进球
尽管如此,数据分析师们还是提出了许多数据指标来描述足球比赛中的行为和事件。在这之中,最广为人知的大概就是预期进球(Expected Goal,xG)。预期进球的概念起源于冰球,在 21 世纪初由 Opta 等数据公司引入足球领域。预期进球的名字可能或多或少有一些误导性,因为它描述的并不是射门后的进球概率,而是当前场景下射门的进球概率。换言之,xG 评价的是当前射门机会的好坏,并不考虑此次射门的质量。例如,一个横传门前推射空门的机会,应当得到很高的 xG,即使这脚射门放了高射炮;而禁区外围的远射,哪怕直挂死角,xG 也会很低。那么,xG 是如何计算的呢?
如前所述,平均意义下一场足球比赛的进球只有 2-3 个,但射门数可以达到 20-30 次。考虑众多联赛多年的射门数据,我们还是能达到一个足够大的数据集。预期进球模型就是使用成百上千次具有相似特征的历史射门来估计进球的可能性。对于机器学习而言,这本质上是一个二项分类问题,因为射门的结果只有两种可能:进球,不进球。我们希望训练出一个分类器,输入特征信息后,可以输出一个 之间的预测值,表示分类器认为在此时射门,有 p 的概率进球。下一个问题自然是,特征信息应该包含哪些要素?这就蕴含着数据分析师对足球运动的个人理解了(图 2)。相信大家都能想到,射门点的位置(包含与球门的距离和角度)和守门员的位置是至关重要的。除此之外,射门路线上防守球员的位置、射门部位(头球、惯用脚/非惯用脚)、射门时身边防守球员的干扰、射门前的传球类型(传中/直塞,高球/半高球/地面传球)、球的高度和速度,不一而足,都是可能的影响因素。像 StatsBomb 这样的数据公司,甚至在他们的模型中加入了“冻结帧”数据,即射门时刻双方所有球员的位置信息。
![图 2: 表格来源:参考文献 [1]。](https://www.notion.so/image/attachment%3Adbee440e-6a32-4bee-97d1-e8d59909956f%3A2.png?table=block&id=2167635e-ea7b-80ed-9a63-c216658ddd1e&t=2167635e-ea7b-80ed-9a63-c216658ddd1e)
提取出特征信息后,训练模型反而是一件相对容易的事了,因为这在机器学习领域有成熟的算法。最常用的是逻辑回归(logistic regression)和决策树算法(xGBoost,注:这是算法名字,名字中有 xG 纯属巧合)。一般而言,采用决策树算法训练出的模型在性能上会略胜一筹,但区别不会很大。由于建模所用的特征信息和模型训练算法的差异,不同数据公司提供的 xG 也会有些差别。不过当时间线拉长到一个赛季的时候,这些差别往往就非常小了(图 3)。
![图 3: 表格来源:参考文献 [1]。](https://www.notion.so/image/attachment%3A104d00a5-4f17-41b4-a79d-5bfdda3ad6c3%3A3.png?table=block&id=2167635e-ea7b-80e1-a697-c35d005cdd23&t=2167635e-ea7b-80e1-a697-c35d005cdd23)
xG 能为我们提供怎样的看球新视角呢?这个赛季的英超联赛中(图 4a),除去点球,阿森纳打入 67 球,预期进球为 60.92,看起来我厂把握机会的能力还挺强。实际上,如果考察进球 vs 预期进球,我厂的 +6.98 在全英超可以排进前三。回想赛季后半段梅里诺出任中锋的时间,不少球迷感叹他的射术真靠谱,这与数据反映出来的信息一致:他将一些质量一般的机会转化成了进球。这个赛季进攻的问题出在机会创造上。回看 2023-2024 赛季(图 4b),阿森纳的非点球进球为 86 个,预期进球 69.60。可以看到,上个赛季不管是机会创造还是机会把握上(尽管哈弗茨在前半个赛季一度有些“快乐”),都远远领先于本赛季。


当然,进攻端数据的下滑和前场核心球员接二连三的伤病有极大的关系。由于出场数的减少,哈弗茨、萨卡、厄德高等球员的预期进球数据都有巨大下降(图 5),小马丁和特罗萨德等人在担纲主力的时间内也没有输出和萨卡等人相近的进攻数据,因此“便秘”的进攻和塔帅保守的战术选择或许是难以避免的。期待夏窗的引援和下赛季齐整的人员,可以让我们重新看到我厂水银泻地的进攻。


图 5: 近两个赛季英超联赛阿森纳核心球员预期进球数据。(数据来源:Sofascore)
也许你会认为,像哈兰德这样的精英射手,一定有很强的机会转化能力,即真实进球远大于预期进球。然而事实却不尽然。本赛季英超射手榜前三的球员(图 6),进球数都基本与预期进球持平。用数据公司 Hudl StatsBomb 的话来说:“当样本量足够大时,我们可能会发现某些球员在终结能力非常突出,但大多数球员都接近平均水平。一般来说,好前锋的区别不在于有多少高出平均水平的终结能力,而在于从有价值的地方射门。”因此,前锋的高 xG 在一定程度上反映了通过跑位寻找适当的射门机会的能力,以及队友对他的高支援度。我们也可以结合其他数据去尝试理解射手榜中的“异常”值。例如,库尼亚的射门次数和萨拉赫等人相当,但只有 8.63 的预期进球,这可能意味着库尼亚的起脚点并不合理。事实上,他一半的射门(55 脚)都来自于禁区外,这样的远射显然是低 xG 的。不过另一方面,这也说明库尼亚的远射能力相当强,能够完成不是好机会的远射进球。

有人可能认为,预期进球模型中应当加入球员作为特征信息。这样,我们可以每次射门机会对具体球员个人的质量。例如,梅西在弧顶区域横向盘带后的射门,对于别人来说 xG 可能很低,但对他自己而言可能相当高。但事实上,并没有这样的数据指标去这样做。(在我个人看来)原因有二:一是每个球员个人的数据不够多,可以看到即便是萨拉赫一个赛季也只有 100 多次的射门,整个职业生涯的数据量大概也不会超过 3000,其他球员的数据大抵会更少。这样的样本量无法支撑机器学习得到足够好的结果。二是,我们其实最想知道的,正是对所有球员取“平均”的预期进球,以此为基准才能更好地衡量一个球员的进球能力。个性化的数据反而不利于直接比较。
预期射正进球和阻止进球数
既然 xG 可以描述机会质量,以及在一定程度上反映进攻球员的选位能力,那么是否有数据指标可以体现球员的射术呢?答案是预期射正进球(Expected Goals on Target,xGOT),也称射门后预期进球(Post-Shot Expected Goals,PSxG)。预期射正进球通常考虑射门地点,射门之后的球速,和最终在门框范围内的位置(被守门员扑救的射门会延长其运动轨迹直至与球门平面相交)。可以想象,打入死角的射门将得到一个高 xGOT,射向中路的射门将是低 xGOT,而不在门框范围内的射门的 xGOT 自然是 0。例如,欧冠主场对阵皇马的比赛中,梅里诺第 75 分钟的进球 xG 仅为 0.08,而 xGOT 高达 0.51,因为这脚射门打向了球门的底角(图 7a)。作为对比,姆巴佩在上半场第 31 分钟的单刀,xG 有 0.28,但 xGOT 仅为 0.11,因为这脚射门打向了球门中路,因此被拉亚封堵(图 7b)。


图 7: 梅里诺和姆巴佩射门前后的预期进球。(数据来源:Sofascore)
除了衡量射门质量,xGOT 也可以用来评价门将的扑救能力。传统意义上的扑救成功率和扑救数受球队整体实力和比赛风格的影响很大。例如,保级队门将很可能有很高的扑救数,而执行高位压迫战术的球队的门将往往扑救成功率不高,因为他们面对的射门很可能是单刀。而 xGOT 可以帮助我们更好地认识门将的扑救水平。如果一名门将的实际丢球数大于他所面对的 xGOT,那说明他的扑救能力不够好,因为平均水平下的丢球数应当等于 xGOT。可以看到,在计算 xGOT 的时候,我们并没有将守门员的位置作为特征信息输入,这是因为我们相信选位也是一个门将的能力之一。通常,我们将失球数和预期失球数(xGOT)之差称为阻止进球数(Goals Prevented)。本赛季的英超联赛中,阿森纳的两名门将(当然,内托的出场数很少,所以数据可能和真实水平存在较大偏差)都得以跻身前十(图 8)。

预期威胁模型
无论是 xG 还是 xGOT,都是考虑了球场上的射门事件(event)。然而,在比赛中,还有传球、盘带、抢断、拦截、直塞、传中等多种事件,一般一场比赛的事件数在 3000 左右。好的防守球员可能在完成抢断的同时就已经观察好了中场队友的位置,连抢带传,直接促成一次本方的快速反击。如果最终形成射门甚至进球,最关键的可能正是这一次抢断。显然 xG 和 xGOT 无法体现此类贡献。我们也想要一个像篮球中 EPM 的数据指标,来衡量球员在场上的实际贡献。遗憾的是,足球领域在这方面目前尚无一个统一的、公认的数据指标。不过,数据科学家们还是提出了许多模型和指标,尝试解决这一问题(图 9)。例如 Karun Singh 的预期威胁(xThreat,xT)模型,StatsBomb 公司提出的持球价值(On-Ball Value,OBV)模型等,这些模型统称为控球价值模型(Possession Value Models)。下面我们着重介绍预期威胁模型。
![图 9: 表格来源:参考文献 [2]](https://www.notion.so/image/attachment%3A87327347-6aa2-4527-a8ac-193a4620fc95%3A12.png?table=block&id=2167635e-ea7b-8081-bf07-e228adb70d11&t=2167635e-ea7b-8081-bf07-e228adb70d11)
xT 模型由 Karun Singh 建立 [3]。这位印度老哥的个人经历也相当值得一提。他毕业于康奈尔大学计算机专业,毕业后就职于 Facebook。2019 年他在自己的个人博客上发表了自己的 xT 模型,受到广泛关注。后来,他参加了 Opta 等机构组织的会议,逐渐在足球分析领域小有名气。 2022 年,Karun Singh 入职阿森纳,成为一名阿森纳的数据科学家,实现了爱好和事业的统一(他在此之前应该就是阿森纳球迷)。
xT 是一个针对空间位置的数据指标,它衡量在不同区域控球时,对对方球门的威胁程度。例如,在Karun Singh 的计算中,他将球场划分成 16×12 的区块,并将每一个区块上的控球威胁定义为 。现在让我们来看看如何计算它。
首先,当球员位于 (x, y) 区域控球时,他可以选择射门。根据历史统计数据(例如一个赛季),我们可以计算出在区域 (x, y) 射门的次数和由此产生的进球数,二者之比可以视为在此处射门进球的概率 。
其次,这名球员也可以选择带球或者传球。假设球员将球从区块 (x, y) 移动到区块 (z, w),那么此时对球门的威胁程度将变为 。再一次地,我们可以根据历史数据,计算出从 (x, y) 处发起的所有带球或传球中,有多少次将球移动到 (z, w) 区域,二者的比值可以视为发生这样移动的概率 。对概率论有些了解的朋友应该立刻能想到,我们正在计算的其实就是 Markov 概率转移矩阵。现在,我们对所有区域 (z, w) 求和,就能得到在 (x, y) 处通过传球或带球引起的预期威胁
区块 (x, y) 的预期威胁应该由两部分组成:射门和移动足球。因此,我们可以将上述两个威胁加起来。当然,我们又一次地需要做一点“归一化”,即根据历史数据计算在 (x, y) 处选择射门的频率 ,以及选择移动的频率 ,求和得方程 (2):
可以看到,上式中右端第一项表示射门的威胁程度,第二项表示移动的威胁程度。这里面,只有 xT 是未知数,方程 (2) 实际上是一个线性方程组,可以直接求解。但在这里,我们以 作为初始条件,迭代地求解这个方程。一般而言,4-5 次迭代就可以得到一个不错的精度。
使用迭代法求解方程 (2) 有另一个好处:可解释性。让我们退回到第一次迭代,此时任意区块都有,迭代方程变为
这大致可以看作一个衡量区块 (x, y) 是否是一个好的射门点的数值。换句话说,迭代一次后,我们的模型只允许射门,不允许传球或盘带。现在我们做第二次迭代。新的 xT 值会用第一次迭代后的 xT 值计算。此时,方程 (2) 的第二项不再是 0,我们得到的新 xT 将包含“射门”、“传球/盘带,然后射门”两种选择的价值。如此续行,n 次迭代后的 xT 表示进行 n 次行动后的得分概率。考虑到刚才的收敛速度,这实际上说明,想要形成一次射门,最重要的就是射门前最后的 3-4 次传球。当然这并不意味着持续传控是没有意义的,因为“人非机器”,传导对防守方体能和注意力的消耗是不可忽略的。
由于近几年的数据并不开源,我们使用了 StatsBomb 开放的阿森纳不败赛季的英超数据,复现了 Karun Singh 的结果。


可以看到,那支不败之师在对方防守的右肋部有更大的威胁。这或许很大程度上收益于亨利在这
里的活动。
xT 不仅可以帮助我们分析球队的进攻模式,还可以使我们量化每一个球员的贡献。例如,萨利巴一脚穿透性的传球,将球从后防线上的 (x, y) 区块,传给了顶在前方位于 (z, w) 的哈弗茨,那么萨利巴这脚传球的价值就是 。如此,我们可以对球员的每一次传球、盘带进行赋值,得到每个球员对进攻的贡献。还是不败赛季的数据,我们计算了所有上场时间大于 600 分钟的球员每 90 分钟的预期威胁,得到下图。

结果非常 Amazing!亨利大帝一骑绝尘,反映出他在这支阿森纳进攻端是不可或缺的。无论是带球还是射门,他的威胁程度都遥遥领先。作为对比,维尔托德就是典型的射手球员。皮雷和维埃拉的传球贡献最大,是球队的进攻组织者。当然,由于考虑的是对对方球门的威胁,所以后场球员在这项数据中依然处于劣势。
结语
除了我们今天介绍的预期进球 xG、预期射正进球 xGOT 和预期威胁 xT,还有相当多的高阶数据正在被挖掘和使用。例如,反映防守压迫强度的 PPDA,衡量传球水平的预期传球 xPass,等等。毫无疑问,在足球领域,数据科学真的就像八九点钟的太阳,冉冉升起,但远未达到顶峰。再一次,数据是客观的,也是片面的。愿大家都能享受足球运动中的喜怒哀乐,也接受足球数据的理性客观。
参考文献
[1] Cavus, M., and Biecek, P. (2022, October). Explainable expected goal models for performance analysis in football analytics. In 2022 ieee 9th international conference on data Science and advanced analytics (DSAA) (pp. 1-9). IEEE.
[3] https://karun.in/blog/expected-threat.html
- 作者:wangchr1617
- 链接:https://www.wangchr1617.top/technology/soccer-1
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章


