数据处理必看：如何让你的Pandas循环加快71803倍

发布时间：2019-08-28 01:20:53 所属栏目：教程来源：skura

导读：雷锋网 AI 开发者按，如果你使用 python 和 pandas 进行数据分析，那么不久你就会第一次使用循环了。然而，即使是对小型数据集，使用标准循环也很费时，你很快就会意识到大型数据帧可能需要很长的时间。当我第一次等了半个多小时来执行代码时，我找到了接

我们可以将 apply 与 Lambda 函数一起使用。我们要做的就是指定轴。在这种情况下，我们必须使用 axis=1，因为我们要执行一个列操作：

此代码甚至比以前的方法更快，只需要 27 毫秒就能完成。

pandas 矢量化——快 9280 倍

现在我们可以讨论一个新话题了。我们利用矢量化的优点来创建真正快速的代码。重点是避免像前面的例子 [1] 中那样的 Python 级循环，并使用优化的 C 代码，这个代码使用内存的效率更高。我们只需要稍微修改函数：

df['Draws'] = 'No_Game'     
        df.loc[((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D')), 'Draws'] = 'Draw' 
       df.loc[((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D')), 'Draws'] = 'No_Draw'  
       def soc_iter(TEAM,home,away,ftr):

现在我们可以用 pandas series 作为输入创建新列：

数据处理必看：如何让你的Pandas循环加快71803倍