[ 引言 ] 虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu,非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈。,我们以Apply为例,原始的Apply函数处理下面这个问题,需要18.4s的时间。,因为处理是并行的,所以我们可以使用Swift进行加速,在使用Swift之后,相同的操作在我的机器上可以提升到7.67s。,使用Pandas和Numpy的最快方法是将函数向量化。如果我们的操作是可以直接向量化的话,那么我们就尽可能的避免使用:,在将上面的问题转化为下面的处理之后,我们的时间缩短为:421 ms。,我们先将上面的类别转化为int16型,再进行相同的向量化操作,发现时间缩短为:116 ms。,在能转化为.values的地方尽可能转化为.values,再进行操作。,于是,上面的操作时间又被缩短为:74.9ms。,通过上面的一些小的技巧,我们将简单的Apply函数加速了几百倍,具体的:
© 版权声明
文章版权归作者所有,未经允许请勿转载。