加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-26 22:03:24 所属栏目:教程 来源:程序员ACE
导读:常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像,那下面这篇系统长文会很适合你,建议先收藏。 Excel 是数据分析中最常用的工具,本文通过 Python 与 excel 的功能对比介

使用 merge 函数对两个数据表进行合并,合并的方式为 inner,将两个数据表中共有的数据匹配到一起生成新的数据表。并命名为 df_inner。

  1. #数据表匹配合并,inner模式 
  2. df_inner=pd.merge(df,df1,how='inner') 
一文看懂怎么用 Python 做数据分析

除了 inner 方式以外,合并的方式还有 left,right 和 outer 方式。这几种方式的差别在我其他的文章中有详细的说明和对比。

  1. #其他数据表匹配模式 
  2. df_left=pd.merge(df,df1,how='left') 
  3. df_right=pd.merge(df,df1,how='right') 
  4. df_outer=pd.merge(df,df1,how='outer') 

设置索引列

完成数据表的合并后,我们对 df_inner 数据表设置索引列,索引列的功能很多,可以进行数据提取,汇总,也可以进行数据筛选等。

设置索引的函数为 set_index。

  1. #设置索引列 
  2. df_inner.set_index('id') 
一文看懂怎么用 Python 做数据分析

排序(按索引,按数值)

Excel 中可以通过数据目录下的排序按钮直接对数据表进行排序,比较简单。Python 中需要使用 ort_values 函数和 sort_index 函数完成排序。

一文看懂怎么用 Python 做数据分析

在 python 中,既可以按索引对数据表进行排序,也可以看制定列的数值进行排序。首先我们按 age 列中用户的年龄对数据表进行排序。

使用的函数为 sort_values。

  1. #按特定列的值排序 
  2. df_inner.sort_values(by=['age']) 
一文看懂怎么用 Python 做数据分析

Sort_index 函数用来将数据表按索引列的值进行排序。

  1. #按索引列排序 
  2. df_inner.sort_index() 
一文看懂怎么用 Python 做数据分析

数据分组

Excel 中可以通过 VLOOKUP 函数进行近似匹配来完成对数值的分组,或者使用“数据透视表”来完成分组。相应的 python 中使用 where 函数完成数据分组。

Where 函数用来对数据进行判断和分组,下面的代码中我们对 price 列的值进行判断,将符合条件的分为一组,不符合条件的分为另一组,并使用 group 字段进行标记。

  1. #如果price列的值>3000,group列显示high,否则显示low 
  2. df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low') 
一文看懂怎么用 Python 做数据分析

除了 where 函数以外,还可以对多个字段的值进行判断后对数据进行分组,下面的代码中对 city 列等于 beijing 并且 price 列大于等于 4000 的数据标记为 1。

  1. #对复合多个条件的数据进行分组标记 
  2. df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1 
一文看懂怎么用 Python 做数据分析

数据分列

与数据分组相反的是对数值进行分列,Excel 中的数据目录下提供“分列”功能。在 python 中使用 split 函数实现分列。

一文看懂怎么用 Python 做数据分析

在数据表中 category 列中的数据包含有两个信息,前面的数字为类别 id,后面的字母为 size 值。中间以连字符进行连接。我们使用 split 函数对这个字段进行拆分,并将拆分后的数据表匹配回原数据表中。

  1. #对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size 
  2. pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']) 
一文看懂怎么用 Python 做数据分析
  1. #将完成分列后的数据表与原df_inner数据表进行匹配 
  2. df_inner=pd.merge(df_inner,split,right_index=True, left_index=True) 
一文看懂怎么用 Python 做数据分析

05 数据提取

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读