rpart 如何使用poisson回归方法

点击联系发帖人 时间：2017-08-02 05:51

poisson分布

君，已阅读到文档的结尾了呢~~
基于rpart包的决策树应用—文档、资料、论文、办公、总结，均是精品资料，免费阅读，免费分享，值得下载！
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
基于rpart包的决策树应用
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口君，已阅读到文档的结尾了呢~~
基于rpart包的
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
基于rpart包的
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer-.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口6579人阅读
1,生成树：rpart()函数raprt(formular,data,weight,subset,na.action=na.rpart,method,model=FALSE,x=FALSE,y=TRUE,parms,control,cost,...)& && && &fomula
：模型格式形如outcome~predictor1+predictor2+predictor3+ect。&
&& && &data& &&&：数据。& && && &na.action：缺失数据的处理办法，默认为删除因变量缺失的观测而保留自变量缺失的观测。& && && &method：树的末端数据类型选择相应的变量分割方法，连续性method=“anova”,离散型使用method=“class”,，计数型method=“poisson”,生存分析型method=“exp”。& && && & parms：设置三个参数，先验概率，损失矩阵，分类矩阵的度量方法。& && && & control：控制每个节点上的最小样本量，交叉验证的次数，复杂性参量：cp:complexity
pamemeter。& && &2，剪枝使用& && && & prune(tree,cp,....)& && && &&&tree常是rpart()的结果对象，cp 复杂性参量& && & 3 显示结果的语句printcp(fit)显示复杂性表plotcp(fit)画交叉验证结果图rsq.rpart(fit)R-squared
和 relative error for different splits (2 plots). labels are only appropriate for&&&anova& method.print(fit)打印结果summary(fit)基本信息plot(fit)画决策树text(fit)给树添加标签post(fit,file=)保存结果ps，pdf，等格式&&#
Classification Tree with rpart
library(rpart)
问题：Rpart中分裂准则？
2分法如何指定呢？
&&相关文章推荐
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：113587次
积分：1173
积分：1173
排名：千里之外
原创：44篇
(1)(8)(8)(10)(9)(13)R: Residuals From a Fitted Rpart Object
residuals.rpart {rpart}R Documentation
Residuals From a Fitted Rpart Object
Description
Method for residuals for an rpart object.
## S3 method for class 'rpart'
residuals(object, type = c("usual", "pearson", "deviance"), ...)
fitted model object of class "rpart".
Indicates the type of residual desired.
For regression or anova trees all three residual
definitions reduce to y - fitted.
This is the residual returned for
user method trees as well.
For classification trees the usual residuals
are the misclassification losses L(actual, predicted) where L is the
loss matrix.
With default losses this residual is
0/1 for correct/incorrect classification.
The pearson residual is
(1-fitted)/sqrt(fitted(1-fitted)) and the deviance residual is
sqrt(minus twice logarithm of fitted).
For poisson and exp
(or survival) trees, the usual residual
is the observed - expected number of events.
The pearson and deviance residuals are as defined in
McCullagh and Nelder.
further arguments passed to or from other methods.
Vector of residuals of type type from a fitted rpart object.
References
McCullagh P. and Nelder, J. A. (1989)
Generalized Linear Models.
London: Chapman and Hall.
fit &- rpart(skips ~ Opening + Solder + Mask + PadType + Panel,
data=solder, method='anova')
summary(residuals(fit))
plot(predict(fit),residuals(fit))
[Package rpart version 3.1-54 ]后使用快捷导航没有帐号？
查看: 10796|回复: 0
回归树的方法简介和rpart的使用介绍
金牌会员, 积分 1269, 距离下一级还需 1731 积分
论坛徽章:9
rpart ( formula, data, w& &&&eight s, subset, na. action = na. rpart, method, model= FALSE, x= FALSE,& &&&y= TRU E, parms, cont rol, cost, . . . )
主要参数说明:
fomula 回归方程形式: 例如 y~ x 1+ x& &&&2+ x3。
data 数据: 包含前面方程中变量的数据框( data& &&&frame) 。
na. action 缺失数据的处理办法:& &&&默认办法是删除因变量缺失的观测而保留自变量缺失的观测。
method 根据树末端的数据类型选择相应变量分割方法,& &&&本参数有四种取值: 连续型& 离散型& 计数型( 泊松过程)&& &&&生存分析型&exp。程序会根据因变量的类型自动选择方法, 但一般情况下最好还是指明本参数, 以便让程序清楚做哪一种树模型。
parms 用来设置三个参数:& &&&先验概率、损失矩阵、分类纯度的度量方法。anova没有参数；
poisson分割有一个参数，先验分布变异系数的比率，默认为1；生存分布的参数和poisson一致；对离散型，可以设置先验分布的分布的概率(prior)，损失矩阵(loss)，分类纯度(split）；
priors必须为正值且和为1，loss必须对角为0且非对角为正数，split可以是gini（基尼系数）或者information（信息增益）；）
control& &&&控制每个节点上的最小样本量、交叉验证的次数、复杂性参量: 即cp: complexity pamemeter, 这个参数意味着对每一步拆分,& &&&模型的拟合优度必须提高的程度, 等等。
剪枝: prune( ) 函数
prune(tree, . . . ) prune(& &&&tree, cp, . . . )
tree 一个回归树对象, 常是rpart( )& &&&的结果对象。
cp 复杂性参量, 指定剪枝采用的阈值。
通常分为两步建立回归树，最初生成一颗较大的树，然后通过统计估量删除底部的一些节点来对树进行修剪。这个过程的目的是防止过度拟合
使用rpart函数构建树的过程中，当给定条件满足时构建过程就停止。偏差的减少小于某一个给定界限值、节点中的样本数量小于某个给定界限、树的深度大于一个给定的界限，上面三个界限分别由rpart()函数的三个参数(cp、minsplit、maxdepth)确定，默认值是0.01、20和30。如果要避免树的过度拟合问题，就要经常检查这些默认值的有效性，这可以通过对得到的树采取事后修剪的过程来实现。
选择树的方法一般有两种，一种是最小化交叉验证的相对方差（xerror）。另外一种是在剪枝理论中,& &&&比较著名的规则就是1- SE( 1标准差) 规则, 其意思是: 首先要保证预测误差( 通过交叉验证获得, 在程序中表示为xerror) 尽量小,& &&&但不一定要取最小值, 而是允许它在“最小的误差”一个相应标准差0、的范围内, 然后在此范围内选取尽量小的复杂性参量,& &&&进而以它为依据进行剪枝。这个规则体现了兼顾树的规模( 复杂性) 和误差大小的思想, 因为一般说来, 随着拆分的增多, 复杂性参量会单调下降(& &&&纯度越来越高) , 但是预测误差则会先降后升, 这样, 就无法使复杂性和误差同时降到最低,因此允许误差可以在一个标准差内波动
library(rpart)library(rpart.plot)library(survival)fit&- rpart( Surv( pgtime, pgstat) ~ age+eet+ g2 + & &grade+ gleason+ ploidy , data=stagec,method=&exp&)
plot(fit,uniform=T, branch=1, margin=0.1, main=&Classification Tree&)text(fit,use.n=T, col=&blue&)
plotcp(fit)printcp(fit)#选择树的方法有两种，一种是最小化交叉验证的相对方差（xerror）#可以看到最小的误差是第2行xerror=0.88732,相应的标准差xstd=0.074117，相加得#到0.961437，由于是交叉验证，每次运行的数值可能不相同。#0.96介于第6行和第7行的xerror，可以看到树的最大节点数为5，cp必须大于第7行的cp值#本例可以选择0.012fit2&- prune(fit,cp=0.012)plot(fit,uniform=T, branch=1, margin=0.1, main=&Classification Tree&)text(fit,use.n=T, col=&blue&)snip.rpart(fit)#可以动态的对树进行剪枝
扫一扫加入本版微信群}

淘宝游戏网