接触R至今已有近3年时间,期间断续摸索了一些知识,但仍不全面、系统,期待通过此公众号与大家互相学习,交流经验,从中有所得,有所获!所有的软件学习均需遵循从哪来,是什么,怎么用的规律。在一切学习之前有必要对R有一个初步的了解。
1、R的前世今生与未来?
起源:
uR语言是从S统计绘图语言演变而来,可看作S的“方言”。
uS语言上世纪70年代诞生于贝尔实验室,由Rick Becker, John Chambers, Allan Wilks开发。
u基于S语言开发的商业软件Splus,可以方便的编写函数、建立模型,具有良好的扩展性,在国外学术界应用很广。
u1995年由新西兰Auckland大学统计系的RobertGentleman和RossIhaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。
趋势:
R语言从最初以统计和绘图为目的的计算机语言可以在这么长的时间发展中依然历久弥新,在可预见的未来R语言一定会在数据处理和图形展示方面发挥更大的作用。TIOBE近日发布的4月变成语言排行榜中,可见R的排名有逐渐上升的趋势,与R语言相关的工作也越来越多,R语言的市场不可谓不广泛!
2、R的优势?
R与其他统计软件的比较:
?SAS:速度快,有大量统计分析模块,可扩展性稍差,昂贵。
?SPSS:复杂的用户图形界面,简单易学,但编程十分困难。
R的独特之处:
GNU软件:免费、软件本身及程序包的源代码公开。
强大的制图功能:如果你希望复杂数据进行可视化,R无疑是首选。
丰富的资源:涵盖了多种行业数据分析中几乎所有的方法。
良好的扩展性:十分方便得编写函数和程序包,跨平台,可以胜任复杂的数据分析、绘制精美的图形。
完备的帮助系统:每个函数都有统一格式的帮助,运行实例。
下图展示R制图功能的示例。
选择UCI的一个数据集,包含13种汽车车型的相关指标,共398个样本。选可行驶的公里数MPG作为因变量y,排气量displace、马力horsepower、自重weigh为自变量,进行多元统计分析,首先生成的三点矩阵图在R中简单代码就可以实现:
scatterplotMatrix(~mpg+displacemen+horsepower+weight,data=data,main="散点矩阵图")
3、为什么生态学者要学习R?
随着生态学观测手段的不断发展与更新,大数据是当今生态学发展的趋势。近几年来,R语言成为了生态学领域较为流行的软件,特别是在森林样地的处理、地理信息技术和空间处理、统计绘图等领域。面对海量的数据,要求生态学领域研究者从数据的整理清洗、综合分析及精细制图方面对数据进行全面统计,而往往R语言的使用不仅方便了数据的处理,更有利于高质量论文的发表。如群落生态学中的数据一般情况下是多维数据,R语言中的Vegan程序包可以进行多元统计分析,计算alpha和beta多样性,PCA,RDA,CCA排序及方差分解,物种多度曲线也只需要一个简单的函数就可以完成,结果的可视化极高。
(来源于:基于 Vegan 软件包的生态学数据排序分析)
在论文的发表方面,R语言在论文中使用的频率也越来越高。赖江山对2012-2016年以来的20种影响因子3以上的生态学杂志中的20325篇研究论文使用语言作为数据分析工具的情况进行了汇总,可见近5年来,生态学研究论文使用R语言作为分析工具比例呈现快速增长趋势,并在2016年已经超过50%,占居半壁江山,以不争的事实说明R语言已经成为生态学研究中最主要的数据分析工具。
2012-2016年来20种SCI生态学杂志所发表的研究论文使用R语言作为数据分析工具的比例趋势
相较于国外的杂志,国内的生态学刊物内论文选择R作为数据分析工具的比例则明显的不如。《生态学报》、《植物生态学报》、《生物多样性》和《应用生态学报》近5年来所发论文R语言使用比例虽然逐渐的上升,但其动力仍旧不足。
国内生态学相关刊物所发论文使用R语言作为数据分析工具的趋势
技术专区
- 如何让Ubuntu Linux更快的技巧
- Redis 使用的常见误区(案例分析)
- Java开发者必须了解的堆外内存技术
- R语言的前世今生(起源、趋势、优势)
- 简单介绍Python输入/输出、数据类型、条件/循环语句