R语言,最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。
工具/原料
电脑
R语言
方法/步骤
1、3)记录抽取记录抽取函数:subset(x,condition)x:需要处理的数据condition:过滤条件返回值:data.frame案例:items<-read.table('sales.csv',sep="|",header=TRUE,fileEncoding='utf-8',stringsAsFactors=FALSE)sub_items<-subset(items,comments>10000)---提取comments大于10000的记录
2、4)随机抽皱诣愚继样随机抽样函数:sample(length,size,replace=FASLE)length:样本长度size:抽样行数replace:是否可回收样本,瘫问钾酗默认为不放回,即FALSE返回值:行数的位置值数组案例:items<-read.csv('sales.csv')---导入数据rows<-nrow(items)---数据记录行,即抽样行数lengthindexes<-sample(rows,3,replace=TRUE)---使用sample函数,在rows(10行)抽取3个数据(抽取的是数据行位置行号)data1<-items[indexes,]---提取出items表中的随机抽取出的indexes行号对应数据