阅读:0
听报道
导语
随着复杂网络研究范围的日益扩大,体育竞技也逐渐被应用到其中,尤其是足球和篮球这两项团体运动中。本文梳理了近年来的多篇相关研究,从球员传球风格与球队胜率,到球队风格的量化,再到联赛整体特征,以及体育与社会的关系等,展示复杂网络研究和数据分析技术与体育结合的多种可能。
1. 复杂网络是个框,体育也能往里装?
不管是足球还是篮球,团体性的竞技体育都是涉及几十亿人,数万亿美元的大产业。随着体育比赛的数据化,海量的数据使得数据科学得以在体育产业展示它的魔法。NBA勇士队掀起了利用专业的数据分析提高成绩的浪潮,随着勇士队的连续夺冠,数据分析师已经成为了各个NBA球队篮球教练组必不可少的一员。在足球,网球,排球等其他运动项目上,数据分析也起到了提升球队的比赛的效果。
任何涉及到团队配合的运动,都可以被自然地视为参与者之间相互作用组成的网络。由于竞技体育的胜负是清晰定义的,这使得数据天生就带有标注;而竞技体育中球员特征,例如身高、体重等以及在场上的传球、射门、突破等动作,也是有明确定义的,随着计算机视觉对视频数据的自动标注,海量的数据,使得竞技体育中积累了众多天然的随机双盲实验。这使得研究者得以使用复杂网络的成熟方法学,研究网络结构的变化,网络中的信息传递和网络涌现出的宏观结果(比赛输赢)这三者的关系。
复杂网络在体育中的应用,有广阔的空间。比如除了职业的各种球类运动,对于团队性的电子竞技项目,例如Dota,一些研究方法和结论也是适用的。而在未来,网络分析的框架,还可以整合包括视频、可穿戴设备、体检体测数据等数据源,可以使网络具有更多的层次,从而更好的发挥网络分析的威力。对于非职业的体育项目,随着用户上传数据的增加,也能产生全新的研究方向,例如研究如何避免运动产生的伤病,如何让参加运动的球员相对平均地得到锻炼和发展。
本文将介绍近期的四篇相关研究,视角逐渐放大,先看球员的传球对胜负的影响,再看球队持续的风格如何定量化的考察,之后分析整个联盟在不同时间的整体特征,最后分析体育在社会中的位置,展示复杂网络研究和体育结合的诸多可能方向。
2. 怎样传接球能让你赢得篮球比赛
球队状态不好,某名球员发挥不好,是输球之后常见的借口。而用网络科学的视角来分析的时候,就可以定义一个新的指标,来预测球队的输赢。
杜克大学的研究者,在2018年arxiv.org上的一篇预印本论文中,针对篮球比赛,提出了一项预测指标。
论文题目:
SMOGS: Social Network Metrics of Game Success
论文地址:
https://arxiv.org/abs/1806.06696
该研究基于美国高校的NCAA联赛,统一安装了高清晰度的三维立体摄影和分析,该文关于的也是传球网络,有了这样的数据,就能针对每名球员,给出其传球和接球的热点位置。如下图所示,图a)中的热点区域说明该球员最经常在三分线弧顶传球,bcd分别展示了传给锋线,中锋和后卫位置的球员时,最常见的成功接球位置。
之后作者结合篮球规则,自己定义了一个指标,用来描述每名球员在传接球网络中的影响。该指标可理解为结合了具体应用场景的一种中心度计算方法(SMOGS),只是该计算方法分别针对传球和接球,且每名球员对给出一个在二维空间的,而不是一维空间的值。
作者比较了同一个队伍在赢球时和输球时,传接球网络根据新提出的指标,通过展示俩者的显著区别,说明该指标能够预测球队的输赢。
上图中的每个点(数字代表球员的编号)代表一名球员,红色代表接球,蓝色代表传球,所在的位置代表了根据SMOGS计算得出的指标在二维空间上所处的位置。左边对应输球时,右边对应赢球时。不管是从整体上(一个球队)还是个体来看,都有明显差别。而用作预测时,新提出的指标也比现有的指标要好。
3. 瓜迪奥拉治下的巅峰巴萨,有何不同
9月 Nature 子刊 Scientific Reports 上发表的一篇论文,研究者利用网络科学方法,佐证了球迷对主帅瓜迪奥拉旗下的巴萨队(10-11赛季)传球细腻,控制比赛节奏的印象。
论文题目:
Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona
论文地址:
https://www.nature.com/articles/s41598-019-49969-2
研究者关注比赛中的传球,将球队在西甲单赛季的传球记录,组成如下图所示的有向网络。图中的每个点是一个球员,点的大小代表在网络中的特征向量中心性(Eigenvector Centrality),点的位置是其平均传球的位置,线的深度代表了传球的总次数。
之后,研究者对比了传统足球分析中用到的指标,例如传球距离50次传球所需的时间,以及网络分析中用到的指标,如聚类系数(cluster cofficient)、最大的特征向量、队中球员的特征向量中心度的最大值等,发现巴萨和西甲其他球队传球网络的平均值,都有明显的差异。
而在进球或者丢球之前,巴萨的传球网络与西甲其他球队也有明显不同。
上图展示的是进球和丢球前的五十次传球组成的网络,依次考察的是网络的聚类系数、传球网络对应矩阵的最大特征向量。纵轴是进球时的值,横轴是丢球时的值。
该分析用来说明在进球/丢球的关键时刻,巴萨和其他球队的差异依然存在,而且这种球队间差异具有鲁棒性。研究者还通过横轴和纵轴的区别,说明在丢球和进球前的传球网络有所不同。
4. 足球比赛正在变得无趣——比赛结果爆冷门越来越难了
竞技体育的魅力就在于没有永远的赢家,但最近的一篇文章,打破了爱拼就会赢的神话。今年8月在arixv上的一篇论文,通过对11个主流的欧洲联赛中8万场比赛的胜负的分析,作者得出球队间的强弱差距正在变得显著,比赛结果也更具有可预测性,同时主场优势普遍变得不那么显著。
论文题目:
Football is becoming boring;Network analysis of 88 thousands matches in 11 major leagues
论文地址:
https://arxiv.org/abs/1908.08991
上图展示的该文研究的网络,图中的每个点是英超联赛中的一支球队,线的深浅代表这两队之间的净胜球数目,点的大小代表该球队在胜负网络中的中介中心性(Betweenness Centrality)。
该文基于球队的平均赛季进球丢球数等指标,结合是否在主场,用简单的逻辑回归模型预测比赛的输赢。
下图展示的是欧洲几个顶级联赛中预测模型的AUC(橙色,用来评价模型的准确性)及基尼系数(蓝色,用来评价不平等的程度),可以看出从95年到18年,两者都在显著地增加。
5. 某队球迷数量和所在城市的人口呈现幂律关系
竞技体育具有跨越国界的魅力。在18年的一篇arxiv文章中,作者发现了三只足球豪门皇马,曼联,拜仁的球迷数目(twitter关注量,转发条数)和各个国家不同城市之间的人口数呈现幂律分布。
论文题目:
Urban scaling of football followership on Twitter
论文地址:
https://arxiv.org/abs/1812.04453
这并不意外,但该文章有趣的是分析了球迷人数的增长,在那些国家是超线性的(superliner),即球迷人数的增加比城市总人口的增长还要快,例如城市人口增长10倍,球迷数量增长15倍,这是对应的expnent系数就是15/10=1.5。下图分别展示了印尼(ID),哥伦比亚(CO),墨西哥(MX),西班牙(ES),英国(GB)和美国(US)中,这三个球队的球迷数目和城市人口之间的幂指数大小。
可以看出,在印尼、哥伦比亚,都存在不同程度的超线性增长,也就是说球迷的比例在大城市要高于小城市。
而在美国,英国,西班牙则是相反的,美国人对足球不感兴趣,但对于英国和西班牙为何也没有出现超线性的增长,这说明在发展中国家,对足球的喜爱更加紧密的依赖着城市大小的增长。
一种可能的解释是,在贫富差距大的地方,越是大的城市,越需要竞技体育带来的消遣娱乐。
这篇论文除了其结论契合幂律法则的通用性,而且将体育看成是社会物理学(social physics)中的一部分,研究体育和其他我们关心的指标的关系,例如球队的成绩和所在城市的经济兴衰。
6. 用数据说话,做一个专业球迷
关于网络科学与数据科学在体育比赛中的应用,相关的研究越来越多,与行业知识的结合也越来越深。
如果你问一个篮球迷,主场优势意味着什么,他不一定能说清楚。而用数据科学的武装的你,就可以拿出(Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics)这篇论文的研究,指出主场打球的队伍,盖帽数目,助攻数目,相比平均值会出现接近20%的增加,而罚球数和抢断数目也会有5%-10%的增加。这和球迷看球的一般印象是吻合的,盖帽,抢断数据上升的原因是球员更积极的拼抢,罚球多则是裁判对主队的照顾,助攻多则是球队打得更有耐心。
论文题目:
Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics
论文地址:
https://arxiv.org/abs/1909.04817
其他结合网络数据研究还有很多,如根据足球中传球的位置,将球队聚类,从而对应于球迷常说的442,434等不同阵型上(Clustering algorithm for formations in football games)。再如用遗传算法,帮助球队经理选择最佳的球员组合。
论文题目:
Players’ selection for basketball teams, through Performance Index Rating, using multiobjective evolutionary algorithm
论文地址:
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221258
另一个可能的结合点是研究那些因素决定着职业运动员/教练员的成败,关于成功的科学(Science of success)也是近来的研究热点。而将球员共同比赛的关系组成网络,研究者是否也会在体育界,发现在艺术家和科学家中存在的“与大牛合作”、“名师出高徒”等成功规律,这也是值得研究的方向。
而笔者更关心的是体育和普通人的关系,能否通过大数据的研究,说明体质训练,体质测评的得分和个人的学业,事业成功或创新能力有相关性?或者指出体育锻炼设施多少和城市的经济发展有因果关系?这是更具有普遍价值,也更接地气的研究方向。
作者:郭瑞东
审校:刘培源
编辑:张爽
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。