摘要: 仅用于记录R语言学习过程:
n apply()函数:可用于矩阵,数组,数据框。参数设置:x=矩阵名,MARGIN 选1为对行操作,2为对列操作,fun为拟进行的函数运算,如sum,mean等
n lappy()函数:除了有汇总功能外,还有遍历的功能,返回的是列表
n tapply()函数:主要适用于数据框。根据一个分类变量将一个数值型变量进行切分,并且进行数据汇总。tapply只能对于一个变量进行汇总,如想同时对多个,可采用dcast()函数。
n by()函数:可进行多个参数的汇总
n aggregate()函数:功能特别强大,根据数据框原本的变量生成新的变量
n sweep()函数:主要针对数组的,参数设置:STATS指的是统计量,FUN默认为减法,如果不是需要自己写入自定义的运算
n ddply()函数:可同时对一个对象进行多种数据汇总(如mean和sd);可根据多种分类变量对某一个数据框进行操作。
u 示例3:自定义函数;多个分类变量的写法
u 三种写法求算平均值
n each()函数:对数据对象进行多批量的操作
n slice()函数:不对变量进行操作,只对行数进行操作。参数设置:数据集,选择的行数
n select()函数:只要针对列进行操作。参数设置:数据集,想要显示的列名
n arrange()函数:排序。参数设置:数据集,拟用于排序的列名,可用desc()函数设置排序时降序排列,默认为升序排列。
n rename()函数:对列重新进行命名。参数设置:数据集,新名字=老名字,新名字=老名字。。。
n mutate()函数:用于生成新的变量,比较特别的地方在于可以在函数中用新生成的变量名作为另一个新变量生成中的一个变量。transform()函数则不能在rate后面再写上new_rate。
u 参数设置:sample_n:数据对象,随机抽取的总行数,省略了抽取随机数的步骤
n 管道符: %>%,连通上下函数,可节省编程时间
u semi_join()函数:如果第一个数据框的元素在第二个数据框里出现了,则返回第一个数据框的元素
u anti_join()函数:反结合,第二个数据框中的元素不出现的,第一个数据框中有的,则返回,如返回c(下例)
u left_join()函数:把所有元素结合到一起,没有都出现的用NA表示
u right_join()函数:根据第二个数据框进行填充,返回b中的所有行,三个列,如果a 中无b的观测,用NA填充。
u 注3:每一列中元素个数可不同,通过重复来进行填充
n 提取列:用[ ],但是只接受传入的为列名
n 进行统计操作:如求和,均值,可多个操作,也可多个变量 并重新命名;前提是放到list里面去,也可以使用点.,来替代list
n 用于打印和作图:此时不能用list,要用{ },并且不同的命令之间要用分号;,用于分行
n by参数:根据by后面参数的水平,对by前面的数据进行操作
n :=(冒号等号) :这个符号的前后都需要有空格,用于把新的列加入到原来的变量dt中
n 串联操作 :两个[ ]之间没有其他的符号