学会这 29 个函数，你就是 Pandas 专家

Pandas 无疑是 Python 处理表格数据最好的库之一，但是很多新手无从下手，这里总结出最常用的 29 个函数，先点赞收藏，留下印象，后面使用的时候打开此文 CTRL + F 搜索函数名称，检索其用法即可。,csv 通常是读取 Pandas DataFrame 的最流行的文件格式，你可以使用 pd.read_csv() 方法创建 Pandas DataFrame，类似的函数还有 read_excel，用法如下：,将 DataFrame 导出到 csv，类似的函数是 df.to_excel，用法如下：,查看 file.csv,用来创建 Pandas 的 DataFrame：,借助这个构造函数，我们还可以把字典转换为 DataFrame：,df.shape 属性可以获取 DataFrame 的形状，也就是几行几列这样的数据：,数据帧（DataFrame) 会有很多行，通常我们只对查看 DataFrame 的前 n 行感兴趣，这时可以使用 df.head(n) 方法打印前 n 行：,Pandas 为 DataFrame 中的每一列分配适当的数据类型。使用 dtypes 参数打印所有列的数据类型：,如果要更改列的数据类型，可以使用 astype() 方法，如下所示：,这里有两个函数，第一个 df.info():,第二个是 df.describe()。,如果要打印每个数值列的平均值、标准偏差、最大值等标准统计信息，就可以这样：,假如有这样的 DataFrame：,里面有 NaN，如果要填充它，可以这样：,如果你想用一个连接键合并两个 DataFrame，使用 pd.merge() 方法：,merge 之前：,使用 df.merge 后，可以生成新的数据帧,排序是 DataFrame 非常典型的操作，我们可以使用 df.sort_values() 方法对 DataFrame 进行排序：,要对 DataFrame 进行分组并执行聚合，使用 Pandas 中的 groupby() 方法，如下所示：,如果要重命名列标题，请使用 df.rename() 方法，如下所示：,如果要删除数据帧中的某一列，可以这样：,方法一：使用赋值运算符添加新列,方法二：df.assign(),如果该行上的条件评估为 True，则选择该行：,在基于标签的选择中，要求的每个标签都必须在 DataFrame 的索引中。整数也是有效的标签，但它们指的是标签而不是索引位置。,假如有如下 DataFrame：,我们使用 df.loc 方法进行基于标签的选择：,但是在df.loc[]中，不允许使用索引来过滤 DataFrame，如下图：,以 19 里面的数据帧为例，使用 df.iloc 可以用索引：,非常实用：,还可以将方法应用于单个列，如下所示：,你可以使用 df.duplicated() 方法标记所有重复的行,可以使用 df.drop_duplicates() 方法删除重复的行，如下所示：,要查找列中每个唯一值的频率，请使用 df.value_counts() 方法：,要重置 DataFrame 的索引，请使用 df.reset_index() 方法：,要删除旧索引，请将 drop=True 作为参数传递给上述方法：,要返回跨两列的每个值组合的频率，请使用 pd.crosstab() 方法：,数据透视表是 Excel 中常用的数据分析工具。与上面讨论的交叉表类似，Pandas 中的数据透视表提供了一种交叉制表数据的方法。,假如 DataFrame 如下：,使用 pd.pivot_table() 方法，可以将列条目转换为列标题：,