2016年5月26日木曜日

R输入语言“随机森林”

 >需要(“随机森林”)
 加载所需包:随机森林
 随机森林 4.6 - 7
 键入rfNews()来查看新功能 /更改/ bug修复。

 > TuneRF(D [ - 8 ],D [1,8],DOBEST = T)的
 mtry = 2 OOB错误= 6.43% 
搜索留...
 mtry = 1 OOB错误= 9.23% 
 - 0.4352332 0.05 
搜索正确的...
 mtry = 4 OOB错误= 6.6% 
 - 0.02590674 0.05 

 致电:
  随机森林(X = X,Y = Y,mtry =水库[which.min(RES [2]),1]) 
               随机森林类型 :分类
                      株数 :500
 变量号试图在每个分割: 2

        错误率估计OOB:6.4%
 混淆矩阵:
      否是class.error
 没有 1399 101 0.06733333
  91 1409 0.06066667
 #首调:mtry = 2是可能的最好的。 



 > D.rf < -跨度=“” >随机森林(CV〜,D,mtry = 2)#Mtry = 2在随机森林()函数>打印(d.rf)呼叫:.随机森林分类的参数(公式= CV〜,数据= D, mtry = 2)随机森林:.树木分类号码类型:变量500号试图在每个分割:误差率2 OOB估计:6.37%混淆矩阵:否是class.error 没有1403 97 0.06466667是94 1406 0.06266667 #OOB误差为6.37%。不坏的结果。>重要性(d.rf)MeanDecreaseGini A1 A2 20.320854 11.490523 A3 A4 2.380128 A5 203.135651 A6 75.415005 A7 783.553501#2.679649决策树类似变量的重要程度是..放出来,这也是很重要 >表(D $ CV,预测(d.rf,D [ - 8]))否是否1409 91 83是1417#判断答对率为94.2%。   不坏的结果。 




>需要(“随机森林”)
> Train_dat < - 读取的.csv =“”标题=“TRUE)</ SPAN”kaggle =“”议付适用银行=“”train.csv =“”>
> STR(train_dat)

> Train_dat $节日< - 正如=“”字体=“”>因子(train_dat $假日)

> Train_dat $ workingday < - as.factor =“”跨度=“”train_dat =“”workingday =“”>
> Train_dat $天气< - as.ordered =“”跨度=“”train_dat =“”>天气)
> Train_dat $赛季< - as.ordered =“”跨度=“”train_dat =“”>季)

train_dat $日期时间= as.POSIXct(train_dat $ DATETIME)


> TuneRF(train_dat [,C(-10,-11,-12),train_dat [12],DOBEST = T)

  mtry = 3 OOB错误= 16201.56 
  搜索留... 
  mtry = 2 OOB错误= 17056  
  -0.05273804 0.05  
  搜索正确的... 
  mtry = 6 OOB错误= 15210.13  
  0.06119329 0.05  
  mtry = 9 OOB错误= 14763.69 
  0.02935166 0.05  

  致电: 
   随机森林(X = X,Y = Y,mtry =水库[which.min(RES [2]),1])  
                 随机森林类型:回归 
                       株数:500 
  变量号试图在每个分割: 9 

            平均残差平方:14300.74 
                      %无功解释说:56.41 
  > 

  #首调:mtry = 9是有可能的最好的。 
  > Train_dat。RF <-randomforest span=""> “synSpecial”字型=“”>(计数   〜,Train_dat [,C( -10,-11),mtry = 9) 
  >打印(train_dat.rf) 

  致电: 
   随机森林(公式=计数〜,数据= train_dat [,C(-10,-11),mtry = 9)  
                 随机森林类型:回归 
                       株数:500 
  变量号试图在每个分割: 9 

            平均残差平方:14306.06 
                      %无功解释说:56.4 


  #读取测试数据 

  train_dat> <! -读的.csv =“ ”FONT-FAMILY:=“”哥特式=“”标题=“TRUE)</ SPAN> 
“白色空间:=”“ > STR(train_dat)

  > Test_dat < -读取的.csv =“”标题=“TRUE)</ SPAN”kaggle =“”议付适用银行=“”test.csv =“”> 
  > STR(test_dat) 

  > Test_dat $节日< - as.factor = “”节日=“”跨度=“”test_dat =“”>> $ test_dat workingday < - as.factor =“”跨度=“”test_dat =“”workingday =“”> > test_dat $天气< - as.ordered = “”跨度=“”> test_dat $天气)> test_dat $赛季< - as.ordered =“”跨度=“”> test_dat $季节) 


 > TuneRF(train_dat [,C( -10,-11,-12),train_dat [12],DOBEST = T) 
  

  ñ< - nrow(IRIS)
 小号< -样品(N,N- * 0.5)
 iris.train < -虹膜[S,]
 iris.test < -虹膜[-s,] 
  #随机森林
 森林< -随机森林(物种〜 ,数据= iris.train,ntree = 500)
 pred.forest < -预测(森林,newdata = iris.test,TYPE =“类”)
 表(pred.forest,iris.test [5 ])

 #决策树
 树< - (物种〜rpart包 ,数据= iris.train)
 pred.rpart <-predict iris.test="" span=""> TYPE =“类”)
 表(pred.rpart,iris.test [5 ])

 #重要性
 getTree(森林,1,labelVar = TRUE)
 varImpPlot(林)

 #报告
 split.screen(三(2,1) )
 split.screen(C(1,3) ,屏幕= 2)
 屏幕(3); partialPlot(森林 ,虹膜,Petal.Length,“setosa”)
 屏幕(4); partialPlot(森林 ,虹膜,Petal.Length,“花斑癣”)
 屏幕(5); partialPlot(森林 ,虹膜,Petal.Length,“弗吉尼亚”)
 split.screen(三(2,1) ,屏幕= 1)
 屏幕(1);图(森林 
 close.screen(全部= T) 

0 件のコメント:

コメントを投稿