Pandas 无疑是 Python 处理表格数据最好的库之一,但是很多新手无从下手,这里总结出最常用的 29 个函数,先点赞收藏,留下印象,后面使用的时候打开此文 CTRL + F 搜索函数名称,检索其用法即可。,csv 通常是读取 Pandas DataFrame 的最流行的文件格式,你可以使用 pd.read_csv() 方法创建 Pandas DataFrame,类似的函数还有 read_excel,用法如下:,将 DataFrame 导出到 csv,类似的函数是 df.to_excel,用法如下:,查看 file.csv,用来创建 Pandas 的 DataFrame:,借助这个构造函数,我们还可以把字典转换为 DataFrame:,df.shape 属性可以获取 DataFrame 的形状,也就是几行几列这样的数据:,数据帧(DataFrame) 会有很多行,通常我们只对查看 DataFrame 的前 n 行感兴趣,这时可以使用 df.head(n) 方法打印前 n 行:,Pandas 为 DataFrame 中的每一列分配适当的数据类型。使用 dtypes 参数打印所有列的数据类型:,如果要更改列的数据类型,可以使用 astype() 方法,如下所示:,这里有两个函数,第一个 df.info():,第二个是 df.describe()。,如果要打印每个数值列的平均值、标准偏差、最大值等标准统计信息,就可以这样:,假如有这样的 DataFrame:,里面有 NaN,如果要填充它,可以这样:,如果你想用一个连接键合并两个 DataFrame,使用 pd.merge() 方法:,merge 之前:,使用 df.merge 后,可以生成新的数据帧,排序是 DataFrame 非常典型的操作,我们可以使用 df.sort_values() 方法对 DataFrame 进行排序:,要对 DataFrame 进行分组并执行聚合,使用 Pandas 中的 groupby() 方法,如下所示:,如果要重命名列标题,请使用 df.rename() 方法,如下所示:,如果要删除数据帧中的某一列,可以这样:,方法一:使用赋值运算符添加新列,方法二:df.assign(),如果该行上的条件评估为 True,则选择该行:,在基于标签的选择中,要求的每个标签都必须在 DataFrame 的索引中。整数也是有效的标签,但它们指的是标签而不是索引位置。,假如有如下 DataFrame:,我们使用 df.loc 方法进行基于标签的选择:,但是在df.loc[]中,不允许使用索引来过滤 DataFrame,如下图:,以 19 里面的数据帧为例,使用 df.iloc 可以用索引:,非常实用:,还可以将方法应用于单个列,如下所示:,你可以使用 df.duplicated() 方法标记所有重复的行,可以使用 df.drop_duplicates() 方法删除重复的行,如下所示:,要查找列中每个唯一值的频率,请使用 df.value_counts() 方法:,要重置 DataFrame 的索引,请使用 df.reset_index() 方法:,要删除旧索引,请将 drop=True 作为参数传递给上述方法:,要返回跨两列的每个值组合的频率,请使用 pd.crosstab() 方法:,数据透视表是 Excel 中常用的数据分析工具。与上面讨论的交叉表类似,Pandas 中的数据透视表提供了一种交叉制表数据的方法。,假如 DataFrame 如下:,使用 pd.pivot_table() 方法,可以将列条目转换为列标题:,
© 版权声明
文章版权归作者所有,未经允许请勿转载。