以FIFA球员数据集为例,详解3大酷炫可视化技巧
只保留最好的球队(保留波尔图足球俱乐部只是为了让样本更加多样化)和最常见的国籍。 俱乐部偏好在很大程度上反映了“国籍”:了解前者有助于预测后者。 由图可知,英国球员更可能效力于切尔西队或曼联队,而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。 同理,克莱姆V系数也也捕获到了同样的信息。 如果所有俱乐部拥有的球员的国籍比例相同,那么克莱姆V系数则为0。 如果每个俱乐部偏好单一国籍的球员,则克莱姆系数V==1,例如,所有的英国球员在曼联队效力,所有的德国球员在拜仁慕尼黑队效力等等。 在所有其他情况下,范围则为[0,1]。 3. 数值变量和分类变量 对连续分类案例使用相关比率。 在不涉及太多数学的情况下,该变量用于离散程度的衡量。 如果给定一个数字,就能找出它的类别吗? 例如,假设数据集中有“SprintSpeed”和“Position”两列分类,那么:
由上可知,这些数字很好地预测了他们所处的位置,因此相关性很高。 如果某球员冲刺速度超过85,那么该球员肯定是前锋。 这个比率也在[0,1]之间。 执行此操作的代码取自dython包,代码不会很多,最终结果如下:
分类vs.分类、分类vs.数值、数值vs.数值,这些使图表更为有趣。 很美,不是吗? 只要看看数据,就能对足球有如此多的了解,例如:
此外,通过这个简单的图表,就能找到上述这么多信息,这在没有分类变量的典型相关图中是见不到的。 大家可深入研究这张图表,得到更多有意义的结果,但关键是图表能让大家在现实生活中更容易找到某种规律。 散点图矩阵 虽然前文谈到了很多相关性,但它是一个变幻无常的指标,为了让大家理解,我们来看一个例子。 “Anscombe四重奏”由四个相关性几乎近似于1的数据集组成,但具有非常不同的数据分布,并且在绘制时呈现出非常不同的效果。 Anscombe四重奏:相关性变化无常 因此,有时绘制相关数据变得至关重要,并且需要单独查看分布。 现在数据集中有很多列,把它们全都绘制成图形会很费力。 其实只需几行代码就可以解决。
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |