数据分析常用的18个概念,终于有人讲明白了!
Skewness的绝对值(不论是正值还是负值)如果大于1是个很明显的信号,你的数据分布有明显的不对称性。很多数据分析的算法都是基于数据的分布是类似于正态分布的钟型分布,并且数据都是在均值的周围分布。如果Skewness的绝对值过大,则是另一个信号:你要小心地使用那些算法! 不同的偏斜度下,均值、中位数、众数的取值是有很大不同的: 图2-3 众数、均值及中位数在不同分布下的比较 由图2-3可见,在数据取值范围相同的情况下,中位数是相同的。但是均值和众数却有很大的不同。所以,除了偏斜度指标可以直接反映分布特征外,还可以通过中位数和均值的差异来判断分布的偏斜情况。
14. 峰态(Kurtosis) 标准正态分布的峰态的值是3,但是在很多数据分析工具中对峰态值减去3,使得:0代表是正态分布;正值代表数据分布有个尖尖的峰值,高于正态分布的峰值;负值代表数据有个平缓的峰值,且低于正态分布的峰值。 峰态指标的主要作用是体现数值分布的尾巴厚度,尖峰对应着厚尾,即Kurtosis大于0时,意味着有一个厚尾巴。尖峰厚尾也就是说,在峰值附近取值较集中,但在非峰值附近取值较分散。图2-4所示为一个峰态的例子。 图2-4 峰态的例子 在连续型数据的探索中,需要重点关注的指标首先是缺失率,然后是均值、中位数等指标,这些指标能帮助数据分析者对数据的特征有很好的了解。偏斜度是另外一个非常重要的指标,但其绝对值接近1或大于1时,必须对其进行log转换才能使用,否则该指标的价值将大打折扣。 Python Pandas中DataFrame的describe方法默认只统计连续性字段的最大值、最小值、均值、标准差、四分位数,如果想获取其他的特征值,需要调用相应的函数来获得。下面是一段示例代码,其运行结果通过表2-4来展示。
▲表2-4 连续型变量数据探索示例代码的运行结果 03 分类型数据的探索分类型数据的探索主要是从分类的分布等方面进行考察。常见的统计指标有以下几个: 15. 缺失值 缺失值永远是需要关心的指标,不论是连续型数据,还是分类型数据。过多的缺失值,会使得指标失去意义。 16. 类别个数 依据分类型数据中类别的个数,可以对指标是否可用有一个大致的判断。例如,从业务角度来看,某指标应当有6个类别,但实际样本中只出现了5个类别,则需要重新考虑样本的质量。再如,某个分类型变量只有一个类别时,对数据分析是完全不可用的。 17. 类别中个体数量 在大多数情况下,如果某些类别中个体数量太少,如只有1%的比例,可以认为该类别是个离群值。关于分类型变量离群值的研究比较多,但是如果脱离业务来谈分类型变量的离群值,是不妥当的。 不平衡数据就是一个典型的与业务有关的例子。比如,从业务角度来看,购买黄金的客户只占银行全量客户的很小的一个部分,如果采取简单随机抽样的方式,“是否购买”列的值将只有极少的“是”的取值。 但是,不能将“是”直接判断为离群值,反而“是”有极其重要的业务含义。所以,数据分析者需要灵活地认识和对待类别中个体数量的问题。 18. 众数 和连续型数据的含义一样,众数是数据集中出现频率最高的数据。比如,针对某个分类型取值A、B、C、D中C的出现次数最多,则C就是众数。 以下是一段分类型变量数据探索示例代码,其运行结果通过表2-5来展示。
表2-5 分类型变量数据探索示例代码的运行结果 应用Python Pandas的相关函数能够非常容易得到分类型变量的探索结果,表2-5所示就是数据探索示例代码的运行结果。
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |