【名家专栏】干货好文!足球数据分析的十大误区 看看你中了几条

2020年03月26日 14:48:38  PP体育 | 高顺

文/《The Athletic》记者Tom Worville 翻译/高顺

去年,The Athletic专栏作家本-鲍德温详细撰写了《基于数据的橄榄球分析十诫》,研究对象是那个形状滑稽的皮球。对于足球这项美丽的运动,我们也可以运用海量的数据进行分析。然而,那些客观存在的数字并非总能获得正确使用。

这份指南将使您更加了解谈论球队和球员时的相关背景,明白哪些数据需要注意,以及如何更好地对您所看到的东西发出质疑。


以下是10条告诫的具体内容:

1.不应以扑救率评判守门员阻挡射门的能力

举例:“杜布拉夫卡拥有73.9%的扑救率,是本赛季英超阻止射门能力第8好的门将。”

纠错:扑救率的计算公式是扑救次数/射门总数。显然,它无法说明门将所面临的种种射门在类型和质量上的差异。而这一点恰恰对于门将做出扑救的能力具有重大影响,进而关系到扑救率的高低。


门将甲需要面对10脚来自6码区以内的打门,留给他做出扑救的时间非常紧张;相比之下,门将乙在面对10脚来自至少30码外的远射时就要从容许多。

预期进球数(Expected Goals)和射正所产生的预期进球数(Expected Goals on Target)告诉我们,距离较远的射门更不太可能产生入球,而正中门将下怀或者直奔中路的射门则更容易被扑救。读者若是看过足够多的比赛,必会所见略同。

通过对所有射门“一视同仁”来计算扑救率的做法,实际上贬低了门将甲的能力,并使得门将乙看上去比实际情况更好。

正解:运用射正所产生的预期进球数这一概念,将命中目标的射门质量和实际失球数进行比较,可以为解读守门员的数据增添必需的背景。

阻止失球数(Goals Prevented)则告诉我们,与守门员位置的平均水准相比,某位门将鉴于其所面对的射门质量,究竟阻止了多少粒丢球的出现。如果以这项指标来论,那么杜布拉夫卡的发挥比扑救率所显示的要出色得多,而水晶宫门将瓜伊塔则堪称无敌。(译注:如下图所示,瓜伊塔和杜布拉夫卡是本赛季英超阻止失球最多的两位门将,切尔西的凯帕则在这份榜单上排名垫底)


2.不应以跑动距离或冲刺数据来表明努力程度

举例:“梅西是今天巴塞罗那全队跑动最少的球员,覆盖距离仅为7.6公里。”

纠错:自2013/14赛季起,英超俱乐部就可以获得球员们的赛场追踪数据。作为交易的一部分,媒体也可以访问派生的输出。但截至目前,我们真正看到的只是距离和速度方面的数据统计。

这些统计其实是最缺乏关联的一些数字,却经常被拿来分析队伍和球员的表现。如今我们有足够丰富的理由不去使用它们。

首先,您的奔跑距离和获胜的可能性之间毫无关系。在有限时间内覆盖的距离长短只在计时赛中有意义,而足球运动并非如此。去年欧足联发布的欧冠联赛技术报告显示,顿涅茨克矿工是32强里平均跑动最多的队伍,然而该队只排名小组第3,并在欧联杯32强赛中被淘汰出局。曼联的平均跑动距离仅列倒数第2,却仍然能够打进8强。这玩意真的说明不了什么。

其次,跑动距离和冲刺次数是具有特定风格的数据。球员们在这些数据上的积累是和教练要求、战术体系、对手阵型、比赛形势等多种因素息息相关的。在没有控制或提及背景的情况下,单纯的奔跑距离和冲刺数据并不能使我们获得多少见识。


最后,还有一些数据表明,跑得少可能也会有益处——问问梅西就知道了。大多数球员的体能水平足够维持整场比赛,但最重要的是对于球场空间的掌控。同理,有大量速度型选手投身于这项运动,而懂得何时去运用速度才能成为其中的佼佼者。球场上用速度强吃对手的景象并不多见,能够以瞬间爆发力甩开防守或者抢先控制无主的皮球才是关键。

跑动距离和冲刺数据在运动员管理方面是有价值的,可以确保球员们以正常状态去参加比赛。但足球是一场兼具空间和时间的比拼,目前这套测量工具却过于迟钝,并不值得关注。

正解:暂时还没有好的替代品。要么在使用跑动距离和冲刺数据之前对其进行适当的条件限制,要么就干脆别用它们来分析比赛。

3.不应把控球作为比赛质量的体现

举例:“热刺在0-1负于纽卡斯尔的比赛中拥有79.8%的控球率。这是自2003/04赛季以来,英超赛场落败一方第2高的控球率。”

纠错:诚如马蒂-佩拉尔瑙在《佩普的秘密》一书中所言,“控球只是达到目标的一种手段。它是一项工具,而非目标或者最终目的。”莱斯特城在2015/16赛季夺冠时的平均控球率为42.6%,曼城上赛季封王时的平均控球率则为67.7%。从本质上讲,要紧的并非拥有多少球权——而是利用球权去做些什么。


除了球队在比赛中采取的风格和阵型之外,赢得控球率的比拼并不能说明什么问题,而队伍所采用的风格打法又完全取决于比分牌上的数字。以最近欧冠赛场马竞1-0掀翻利物浦为例,前者在开场4分钟闪击得手后立即龟缩防御,全场比赛仅有27%的控球率。如果他们没有早早取得领先,那么这个控球率的数据可能会大不一样。

正解:控球率依然是一种实用的信息,可以让人们明白哪一方掌握更多的球权——但是千万别把它当作甲队比乙队表现更好的论据。相比之下,预期进(失)球数更能体现队伍发挥的好坏。所以如果你要争论比赛质量的问题,就应该看看你的球队在创造和阻止对手创造机会这两方面表现如何。

4.不应以抢断和拦截数评判一名球员的防守能力

举例:“里卡多-佩雷拉是本赛季英超的最佳后卫,总共完成了119次抢断。”

纠错:球员所做的防守动作并不全是可量化的,那些能够通过计算得出的数据往往由于球队风格不同而产生偏差。从逻辑上说,如果一支队伍控球率较低,就意味着他们在防守端有更多表现机会,反之亦然。


由此可知,抢断和拦截数更像是对于防守风格的表达(消极or活跃),而未必能说明某位球员的防守质量。范戴克平均每90分钟只会尝试0.76次抢断,但没人会据此把他定论成一个差劲的后卫。

另外,由于防守数据受到一名球员所处团队的风格左右,因此很难单独拎出两名球员进行对比。

正解:为了解决这个问题,我们可以调整统计防守数据的办法,即计算在对手每1000次触球的过程中,某位球员做出相应防守动作的次数——这样就能够把所有人置于一个公平的场合进行比较。例如,乔丹-亨德森每90分钟完成2.6次抢断,排名联盟第15位。但在加入控球因素的考量后,红军队长在对手每触球1000次的过程中能做出4.6次抢断,从而成为防守端表现第5活跃的英超中场。

根据控球情况调整后的数据固然可以更全面地反映防守活动,但这些数字仍然展示的是防守风格而非整体质量。

5.不应以抢断成功率评判球员的抢断能力

纠错:我要告诉您一个秘密:赢得抢断和输掉抢断其实是一回事,都忽略了抢断过程中可能导致的另外两个重要结果。


抢断通常被划分成两种类型——赢得抢断和输掉抢断。赢得抢断是指球员在挑战的过程中夺回球权,而输掉抢断则意味着发生了挑战但未能夺回球权。输掉的原因可能是皮球出界变成对手的界外球,或者在无主状态下又被对手重新得到等等。

抢断成功率的定义是赢得抢断数/(赢得抢断数+输掉抢断数)。这项数据告诉我们的是一名球员为本队赢得球权所做出的抢断比例。

问题出在哪里?好吧,现行的公式忽略了两点,一是上抢的队员被控球者顶开即挑战失败的情况,二是在试图抢断时出现了犯规。水晶宫的马丁-凯利以80%的抢断成功率排名英超全体边后卫之首。肉眼可见的事实告诉我们,万-比萨卡应该是顶级的抢断好手,然而他却只位列第11名。这是怎么回事?

正解:通过合并上述两种缺失的情况,真实抢断成功率(True tackle win-rate)可以有效避免犯错,它的计算公式是总抢断数/(总抢断数+挑战失败数+抢断导致犯规数)。照这样计算,万-比萨卡将以78.9%的真实抢断成功率排名榜首,而马丁-凯利则暴跌至29位——看起来好多了。


6.在小型样本中,不应以实际与预期进球数的差值表示球员的终结能力

举例:“菲尔米诺空有12.7个预期进球却只进了8球,因此他是一个糟糕的终结者。”

纠错:说到对于球员得分能力的理解,有两个要素必须单独加以考虑和判断。一是这名射手自我创造机会的能力。进球是射手的立身之本,为了取得进球就要尝试射门。为了衡量这些射门的质量,我们运用了预期进球数的概念。如果一名射手持续在绝佳位置获得机会,进球自然只是时间问题。

射门是一回事,终结是另一回事。在诸如单个赛季这样的小型样本中,一名球员的实际与预期进球数可能并不吻合。就以菲尔米诺为例:鉴于其所获机会的质量,本赛季他的实际进球数是低于预期的。但换个角度考虑,他在跑位这方面做到了最好。

菲尔米诺在利物浦近3个赛季的进球数分别高于、低于和符合预期。仅凭这些数据并不足以给他的终结能力做出定论。


正解:将预期进球数(代表球员所拥有的机会)和射正所产生的预期进球数(代表球员对于机会的把握)进行比较,这是评价终结能力的一项非常基本的方法。即使样本较大,也要谨慎使用,至少得考量几百次射门才能做出结论。

不过,对于终结能力是否算作一项可以复验的技能,足球分析界向来莫衷一是。因此,在找到正确答案之前,请继续遵循预期进球数的指示,即随着时间的推移,大多数球员的实际进球数都会符合预期。

7.不应将整支球队的表现和某名队员的出战与否挂钩

举例:“本赛季阿森纳在没有厄齐尔时的胜率为40%,高于有厄齐尔时的28%。”

纠错:“有没有你”(With or without you,简称WOWY,体育分析界的知名术语)这类数据分析旨在将某名球员的影响力从整支队伍中剥离出来,以查看当他在场与缺阵时球队成绩的变化。

在参与人数较少的项目中,这些数据可以起到分析作用,比如阵容调整更多、得分更高的篮球运动。但在足球领域,参与人数太多了,因此不能用这种方法去分析队员的优劣。不管厄齐尔在场与否,他都无法控制团队的失利。


这里随便举几种理论上应当考虑、实际却没有被WOWY分析法计算在内的情况:对手的质量如何?厄齐尔身旁队友的水平怎样?是否有红牌产生?厄齐尔是替补出场的吗?

使用WOWY分析法会在伯恩利那里面临相同的问题。本-米和塔尔科夫斯基本赛季都踢满了全部英超比赛,二人孰优孰劣?我们就不得而知了。

正解:最好根据球员司职的位置来加以分析,把关注点放在他们自身能够控制的事情上面。就厄齐尔等创造型中场而言,其出场与否关系到球队创造机会的数量;前锋们影响的则是进球数,如此而已。WOWY这类分析法还是留给那些大块头们所玩的室内运动吧。

8.不应以传球准确率评判队员的传球能力

举例:“巴兹利是英超传球本领最烂的边后卫,传球成功率只有63.6%。”

纠错:球员传球的准确与否很大程度上取决于教练的要求,以及他们在拿球时的选择。某些队伍,例如曼城,惯用短传配合,甚至在一些毫无压力的区域也要用短传倒脚。因此,蓝月军团会拥有极高的传球准确率。至于伯恩利这种球队则老指望一击制胜,偏好采用长传方式出球——所以他们的传球往往不太可能成功。

有些传球按照定义会被归结为“不准确的”,但这并不能说明事情的全部。不妨考虑下面的例子,这个例子来源于英冠球会利兹联最近的比赛画面:


在此次进攻中,埃尔德-科斯塔的传球最终被归结为失败的传球,而这很大程度上要拜赫尔城后卫的出色回防所赐。我们要注意的是,科斯塔不但保住了本方球权,还让它进化成一个角球机会。很多情况都是如此——传球手并未丢失球权,可传球却被判定为不成功——从而对球员产生了不公允的评价。



正解:今后我会针对上述问题提出更好的选择,但目前我不认为有多少指标能够迎合这一问题。预期传球成功率(Expected Pass completion rates)可以更全面地说明球员传球准确率低下的原因,但该数据眼下还鲜为公众所知。

9.不应针对多次失败的球员妄加评判

举例:“除门将以外,阿诺德是本赛季英超传球失败次数最多的球员。”

纠错:The Athletic的另一位作家米歇尔-考克斯在1月份写了一篇长文,解释过何为英超赛场上的“失败”,所以我就不再赘述了。(译注:考克斯原文引用了塞缪尔-贝克特的名句:尝试了,失败了,没关系。再尝试,再失败,却是以更好的方式失败。读者可借此品味“失败”的含义)每个赛季的金靴奖得主都无法打入比成功获奖更多的进球,从这点来说他们都是失败者。但如果我们想寻找最出色的终结者,要考虑的仍然是射门转化率和进球数的问题。


正解:在大多数情况下,如果把关注点放在球员失败的次数上,就有必要将其转化为百分比的形式,以增加更多背景信息。他们究竟是失败了许多次,还是在尝试获得远比其他球员更多的东西?

10.不应将出场时间不同的球员进行比较

举例:“阿诺德和麦迪逊并列成为全联盟创造机会能力最强的选手,各自创造了75次机会。”

纠错:出场时间更长的球员拥有更多机会去做重要的事情。倘若不把球员们置于出场时间相等的公平竞争环境,那么上场时间较少的球员看起来几乎总是更糟一些。

或许我一直都在为诺维奇球员布恩迪亚的声誉摇旗呐喊。如果将所有球员的比赛时间统一的话,那么布恩迪亚将是全英超第2好的创造者,每90分钟能制造3.3次机会。


正解:通过将比赛数据调整为每90分钟的形式呈现,出场时间不同的球员也能相互比较,并且会是更加公平的比较。

【《内维尔会客厅》对话杰拉德:留在利物浦比夺得英超冠军更有价值】

责任编辑: 红魔铁憨憨
相关新闻

评论 评论

还可以输入300个字(不少于8个字)
  • 球队
  • 积分
  • 1
  • 广州恒大淘宝
  • 10
  • 1
  • 2
  • 31
  • 2
  • 山东鲁能泰山
  • 7
  • 2
  • 4
  • 23
  • 3
  • 江苏苏宁易购
  • 6
  • 5
  • 2
  • 23
  • 4
  • 上海绿地申花
  • 4
  • 6
  • 3
  • 18
  • 5
  • 深圳佳兆业
  • 5
  • 2
  • 6
  • 17
  • 6
  • 广州富力
  • 4
  • 2
  • 7
  • 14
  • 7
  • 大连人
  • 2
  • 5
  • 6
  • 11
  • 8
  • 河南建业
  • 1
  • 3
  • 9
  • 6