Python数据分析必知必会:TGI指数
我们再看看每个城市总人数以及高客单人数占比,来完成“目标群体中具有某一特征的群体所占比例”这个分子的计算: ![]() 有些非常小众的城市,高客单或者低客单人数等于1甚至没有,而这些值尤其是空值会影响结果的计算,我们要提前检核数据: ![]() 果然,高客单和低客单都有空值(可以理解为0),从而导致总人数也存在空值,而TGI指数对于空值来说意义不大,所以我们剔除掉存在空值的行: ![]() 接着统计总人数中,高客单人群的比例,来对标公式中的分母“总体中具有相同特征的群体所占比例”: ![]() 最后一步,就是TGI指数的计算,顺便排个序: ![]() 出了结果,小Z兴致勃勃的打算第一时间报告老板,说时迟那时快,在按下回车之前又扫了一眼数据,发现了一个严重的问题:高客单TGI指数排名靠前的城市,总客户数几乎不超过10人,这样的高客单人口占比,完全没有说服力。 TGI指数能够显示偏好的强弱,但很容易让人忽略具体的样本量大小,这个是需要格外注意的。 怎么办呢?为了加强数据整体的信度,小Z决定先对总人数进行筛选,用总人数的平均值作为阈值,只保留总人数大于平均值的城市: ![]() 处理之后,小Z觉得这份数据合理多了。
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |