R 语言绘制数据:图表篇

网站建设3年前发布
24 0 0

202303061029162845e9b77a2bfb1919b94999d61c852a61af9b277,R 语言有非常多的绘图和数据可视化的包,比如 ​​graphics​​​、​​lattice​​​、​​ggplot2​​ 等。这是 R 语言系列的第 9 篇文章,我们会介绍 R 中用来绘图的各种函数。,本文使用的 R 是 4.1.2 版本,运行环境为 Parabola GNU/Linux-libre (x86-64)。,R 是自由软件,没有任何担保责任。只要遵守 GNU 通用公共许可证的版本 2 或者版本 3,你就可以对它进行(修改和)再分发。详情见 ​​https://www.gnu.org/licenses/​​。,我们以印度全境消费者物价指数(CPI -- 乡村/城市)数据集为研究对象,它可以从 ​​https://data.gov.in/catalog/all-india-consumer-price-index-ruralurban-0​​​ 下载。选择“截止到 2021 年 11 月” 的版本,用 ​​read.csv​​ 函数读取下载好的文件,如下所示:,以 Punjab 州为例,对每年各月份的 CPI 值求和,然后用 ​​plot​​ 函数画一张折线图:,​​plot​​ 函数可以传入如下参数:,结果如图 1。,20230306103356233ae9f4193df2d91f66504c4948921833dc1c158,Figure 1: Line chart,自相关图能在时序分析中展示一个变量是否具有自相关性,可以用 R 中的 ​​acf​​​ 函数绘制。​​acf​​​ 函数可以设置三种自相关类型:​​correlation​​​、​​covariance​​​ 或 ​​partial​​。图 2 是 Punjab 州 CPI 值的自相关图,x 表示 CPI。,20230306102917a57a32541663b4247d001422b73f20fc1d0817685,Figure 2: ACF chart,​​acf​​ 函数可以传入以下参数:,R 中画柱状图的函数是 ​​barplot​​。下面的代码用来画 Punjab 州 CPI 的柱状图,如图3:,20230306103356d5f8c10066661dbe0a2365be5546efc489de45255,Figure 3: Line chart of Punjab's CPI,​​barplot​​ 函数的使用方法非常灵活,可以传入以下参数:,用 ​​help​​​ 命令可以查看 ​​barplot​​ 函数的详细信息:,绘制饼图时要多加注意,因为饼图不一定能展示出各扇形间的区别。(LCTT 译注:根据统计学家和一些心理学家的调查结果,这种以比例展示数据的统计图形 ​​实际上是很糟糕的可视化方式​​​,因此,R 关于饼图的帮助文件中清楚地说明了并不推荐使用饼图,而是使用条形图或点图作为替代。) 用 ​​subset​​ 函数获得 Gujarat 州在 2021 年 1 月 Rural、Urban、Rurual+Urban 的 CPI 值:,使用 ​​pie​​ 函数为 Gujarat 州的 CPI 值生成饼图,如下所示:,20230306102917a91db9557f1f0b58d8c36434d7af636e0000b4813,Figure 4: Pie chart,​​pie​​ 函数可以传入以下参数:,(LCTT 译注:箱线图主要是 ​​从四分位数的角度出发​​ 描述数据的分布,它通过最大值(Q4)、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1),和最小值(Q0)五处位置来获取一维数据的分布概况。我们知道,这五处位置之间依次包含了四段数据,每段中数据量均为总数据量的,1/4。通过每一段数据占据的长度,我们可以大致推断出数据的集中或离散趋势。长度越短,说明数据在该区间上越密集,反之则稀疏。),箱线图能够用“须线whisker” 展示一个变量的四分位距Interquartile Range(简称 IQR=Q3-Q1)。用上下四分位数分别加/减内四分位距,再乘以一个人为设定的倍数 ​​range​​​(见下面的参数列表),得到 ​​range * c(Q1-IQR, Q3+IQR)​​,超过这个范围的数据点就被视作离群点,在图中直接以点的形式表示出来。,​​boxplot​​ 函数可以传入以下参数:,用 ​​boxplot​​ 函数绘制部分州的箱线图:,20230306102918e5333ad237d94bfc9e77411e76efe865efc2ae137,Figure 5: Box plot,QQ 图Quantile-Quantile plot可以用来对比两个数据集,也可以用来检查数据是否服从某种理论分布。​​qqnorm​​ 函数能绘制正态分布 QQ 图,可以检验数据是否服从正态分布,用下面的代码绘制 Punjab 州 CPI 数据的 QQ 图:,2023030610291967a2fb599590363d6fb377fa1e1aaf4488877e937,Figure 6: Q-Q plot,​​qqline​​ 函数可以向正态分布 QQ 图上添加理论分布曲线,它可以传入以下参数:,等高图可以描述三维数据,在 R 中对应的函数是 ​​contour​​​,这个函数也可以用来向已有的图表添加等高线。等高图常与其他图表一起使用。我们用 ​​contour​​​ 对 R 中的 ​​volcano​​ 数据集(奥克兰的火山地形信息)绘制等高图,代码如下:,2023030610291973028fb10a67a69633a38293ec66a09340c92a221,Figure 7: Volcano,​​contour​​ 函数的常用参数如下:,等高线之间的区域可以用颜色填充,每种颜色表示一个高度范围,如下所示:,填充结果见图 8。,20230306102920c2ab0a42283f30beaf7686faa4d8f4f9d041b6634,Figure 8: Filled volcano,掌握上述内容后,你可以尝试 R 语言 ​​graphics​​​ 包中的其他函数和图表(LCTT 译注:用 ​​help(package=graphics)​​ 可以查看 graphics 包提供的函数列表)。

© 版权声明

相关文章