工具:Jupyter Notebook
Python第三方库:Pandas, Matplotlib, Seaborn和Scikit-Learn
FIFA19是一款风靡全球的足球游戏,里面囊括了全球超过18000名职业球员的数据指标,从而形成一个18000行x88列的数据库,具体可以分为球员基础数据(Basics)和能力数据指标(Performance)两类指标。
笔者选取了以下指标对top1000的球员进行简单的分析。但在进行数据分析之前,需要对数据进行清洗,包括空值的处理,字符串和数值型数据等。这里用到的工具主要是Pandas里面dropna, str.strip, replace等函数,在这里不细讲。
Part 1 基础数据
基础数据字段: 球员姓名,惯用脚,年龄,体重,身高。
我们先来看球员惯用脚的情况,从下图可以看出,右脚球员要明显高于左脚球员,具体比例约为4:1。在1000名球员中,接近800名为右脚,而左脚球员则约230-240左右。
数据的描述统计
我们可以看到足球运动员的平均年龄27岁左右,身高和体重数据均值并不高,体重身高的均值分别为170磅(77kg)以及5.97英尺(175cm)。这与一个普通的成年男性无异。。
那么每个指标的均值是否能够代表一般情况?我们再看下每个字段的概率分布情况,从三组数据的概率分布图来看,基本呈现钟型,即从中间向两边逐步递减,且没有出现左偏或右偏的情况,左右两边的分布相对均匀。
结论:一个足球运动员通常应该是:体重170磅(77kg)上下,5尺9寸高(175cm)。
那么不同大洲/国家之间球员的特征是否会存在不同?笔者选取了四大洲的部分国家数据进行对比:
1)欧洲