如果有人和你说“我的统计学是体育老师教的”,这可能并不是一句玩笑话。因为现在,很多体育项目正在广泛熟练地使用数据分析技术,例如带有传感器的拳击手套可以精确地再现拳击手的打法;百米跑项目中,人们比较分析不同运动员的步数、加速距离等指标,以探索最优的跑步策略。在众多项目中,篮球运动是运用数据分析最好也最广泛的运动之一,其中又以NBA(美国职业篮球联赛)为典型代表。 NBA成立于年,自成立起,NBA就已经在记录球员的得分,助攻和命中率等数据,可谓数据领域的先行者。NBA的早期数据都是通过纸笔记录,随着后来篮球运动的发展,越来越多的数据指标被记录下来,包括抢断和盖帽等。计算机的出现使得更多的数据能够被记录,电视转播保存下来的录像,也使得记录每场比赛每一时刻发生了什么成为可能。年左右,SportVU系统被应用在部分NBA比赛中,这一基于摄像头捕捉的球员数据采集系统,记录下来了场上每一名球员的位置,速度,控球情况等球场上几乎全部的信息。 记录这么多数据有什么用呢? 通过运用传统的数据分析方法、空间统计学以及机器学习等多个领域的知识,可以以数据为基础为球队提供战术分析,球员分析和训练方案制定等方面的咨询建议。例如,比如后卫控球多少秒时进攻成功率最高;量化回防速度对比赛结果的影响等等。事实上,自年起,就逐渐有一批数据公司致力于NBA的数据分析服务了。 今天,我们将利用NBA技术指标数据,构建球员的评价体系。什么是球员评价体系呢?说白了,就是给每个球员每年的表现打一个分。如果你玩过NBA相关的电子游戏,这种打分对你来说一定不陌生。 除了给电子游戏提供数据支持,构建评价体系还有什么用呢? 我们知道,NBA成功的原因有很大一部分在于商业化,一个优秀球员的商业价值是巨大的,那么,什么样的球员叫优秀球员呢?如何量化一个球员优秀的程度,来做成本分析呢? NBA运动员的工资不是一个小数目,球员总想多拿些工资,而队伍则希望少付一些,98-99赛季NBA就因为劳资纠纷,常规赛“缩水”了三分之一。一个科学合理的评价体系,会为工资谈判提供参考。 可靠地球员评价标准,对新明星球员的发现有帮助;同时也可以指导新球员,应当如何提升自己的能力水平。 那么,我们使用什么样的数据来构建我们的评价体系呢?使用的是NBA常用的技术统计指标,这些指标很容易在NBA官方网站上找到。 具体来说,指标分为3大类:防守指标,进攻指标和失误犯规。有了这些自变量,如何构建一个评价体系呢? 人们的第一想法可能是对这些指标进行加权,得到一个综合评分。这种方法的核心问题就在于助攻设定多少权重,篮板设定多少权重,这些权重的选择直接影响了球员的得分。我们认为由回归的方式生成权重,可以避免很多人为的干扰。采取回归的方案重点在于寻找一部分客观公正的球员评价标记,然后才能用这些客观公正的标记以及技术指标统计数据训练处一个模型来。 是否入选赛季全明星是衡量一个球员当下表现的一个天然的标记。因为全明星赛的初衷就是让NBA顶级运动员聚集在一起进行一场表演赛。全明星由投票产生,规则如下: ?东西部各5名全明星首发球员由观众投票选出。迈克尔·乔丹曾经9次成为票王(全明星得票数第一),科比·布莱恩特4次成为票王,勒布朗·詹姆斯3次成为票王。 ?东西部各7名替补球员由各队教练从本联盟挑选,但不能挑选自己球队的球员。 ?若被选球员因伤不能参赛,则由NBA委员会挑选接替者。 全明星球员约占6%,是否入选赛季全明星综合了观众,教练和NBA委员会三方面的意见,由投票产生,不参杂个人主观意识。 有了自变量,有了因变量,接下来就是数据分析的主要部分了。按照惯例,我们先做一些描述分析,以帮助我们更好的理解数据。 主要的技术指标都具有右偏的特征,20%的球员获得了50%的得分,20%的球员获得了63%的盖帽次数。 不同年代,主力球员技术指标(对应指标占前名)的变化如下:其中平均得分、防守篮板有下降趋势;盖帽指标稳定不变;助攻指标在80年代末达到高峰。 我们再来对比全明星球员和非全明星球员在不同技术指标上的特征,下面的图表中,0代表非全明星球员,1代表全明星球员。 在描述分析中,我们发现了一个有趣的现象:全明星球员的所有技术指标都要高于非全明星球员,包括失误和犯规也是。那么,我们可以说失误越多越容易入选全明星吗?这显然是不合常理的!原因在于全明星球员触球时间多,承担的任务多,所以失误和犯规的机会也多一些。用统计学上的术语来讲,失误和犯规与其他变量之间存在相关性,不能边际地进行比较。 我们采用逻辑回归模型,因变量是是否入选全明星,自变量是计数指标。得到的模型结果如下 注: ①从条全数据中筛选出条有效记录。筛选规则:赛季上场时间大于分钟。 ②年“缩水赛季”指标经过了放缩调整。 ③模型经过AIC选择,图中系数在0.01水平下显著。 ④图表中系数放大了倍。 那么有了回归结果,如何构建一个评分体系呢?很简单,我们的评分就是逻辑回归的拟合概率,我们评分的意义就是这样表现的球员入选全明星的可能性有多大,可能性越大,这个球员就越优秀。我们列出我们评价体系的评分前20的“球员-赛季”表现: 其中大部分以早期球员为主,迈克尔乔丹入选的次数最多。 接下来,我们具体解释一下我们评分体系的特点: 得分和助攻都是越高越好。 我们的评价体系中,在其他变量一定的情况下,4次助攻的价值相当于1个成功两分球 在得分一定的情况下,出手次数越少越好,等价于命中率越高越好。 以得分和命中率见长的球员包括: 前场篮板or后场篮板是一个极具争议的话题。我们的评价体系要求: 1.集中火力抢后场篮板,也就是不让对手得到前场篮板。 2.不要去争抢前场篮板 实际中很多队伍放弃前场篮板,这是因为: 1.进攻三秒:规则限制了进攻球员在篮下活动 2.快速退防要求:在前场起跳会影响回防速度 3.二次进攻成功率低 4.目前缺乏抢前场篮板后的对应战术 优秀的篮板球员如: 盖帽比抢断更能体现一个人的防守能力。 盖帽被誉为“暴力美学”,最能展现篮球运动对抗性。 盖帽和抢断系数远大于助攻:防守比进攻更有价值! 优秀的盖帽球员如: 其他变量不变的情况下,失误和犯规都是越少越好,纠正了描述分析中接比较的结果。 然而,高居失误和个人犯规榜榜首的都是些赫赫有名的明星球员!不能单纯比较失误和犯规,要控制其他变量。 以上就是这篇分析的全部内容,敬请期待接狗熊会下来的内容!如果您对我们的“精品案例”和”音频微课“感兴趣,请扫描下方白癜风十大专业医院北京白癜风去哪治疗好
|