在数学几种数的类型的数分类中Tessarine是什么数?

在我们进行回归分析时,当我们因变量为连续性变量时可以直接建立多元线性回归模型进行回归分析,但是当因变量为分类变量时,比如客户是否流失,收入高or低,判断身材胖or瘦等。对于这种分类型变量作为因变量,普通线性回归模型是没法建模的,这就需要用到今天要介绍的Logistic回归模型;百度百科给logistic回归定义的是一种广义的线性回归分析模型,它虽然名字里面有回归二字,但其实它更像是一种分类算法,可以说是一种分类的监督机器学习算法,而且SPSS Modeler也是把它放到分类建模模块的。模型原理:由于因变量为分类变量不能建立普通多元线性回归模型,Logistic回归将事件的发生概率作为因变量。以一个二分类变量Y为例(Y原始数据为“是”or“否”),我们给予Y新的标准,当Y为“是”则Y取值为1,为“否”时Y取值为0;我们将Y发生的概率定义为p,也就是P(Y=1|X),则Y不发生的概率为1-p,即P(Y=0|X);一般情况下定于区分的阈值为0.5,当p>=0.5时,Y取值为1,当p<0.5时,Y取值为0;这里介绍一个概念:odds(简称比值或者优势),是指事件发生的概率与事件不发生的概率的比值。也就是odds=p/(1-p)。对odds取对数后得到因变量 ln\frac{p}{1-p} ;根据因变量,我们构建线性表达式: ln\frac{p}{1-p}=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{n}X_{n} 写成矩阵形式: ln\frac{p}{1-p}=\beta_{0}+\beta^{T}X 令 w=\beta^{0}+\beta^{T}X ,对上述公式进行变换,得到如下函数:p=P(Y=1|X)=\phi(w)=\frac{1}{1+e^{-w}} \phi(w) 就是logistic函数,该函数是取值范围在[0,1]的S型函数,Logistic回归分析的核心就是求解参数w;关于参数的求解,不同于普通回归模型的OLS方法,Logistic回归使用的比较广泛的是极大似然估计,具体原理这里不在详细描述。案例实践:第1步:导入数据,数据源为SPSS Modeler内置的练习数据集,其中chrurn为因变量,因此将其定义为目标角色,另外因为其为二分类变量,所以测量定义为标记(否则后续建模不能构建二项式模型),变量含义是客户是否流失,1表示流失,0表示未流失。第2步:添加Logistic回归分析节点,进行节点参数设置,由于因变量是二分类变量,所以过程选择二项式,同时由于模型中存在分类变量,在模型中要引入虚拟变量(分类输入模块下选择分类变量即可):第3步:完善参数设置后点击运行,具体输出结果及相关解释如下:表格1表格1主要说明了有1000个样本参与建模,没有缺失值。表格2表格2解释了因变量编码,其中NO表示客户未流失,YES表示客户流失。表格3表格3反映了对于分类变量定义虚拟变量的编码解释。表格4表格4是混淆矩阵(判断模型预测准确性最直观的方式),其中反映了原始数据中流失和非未流失的数据量,案例中未流失客户有726人,流失客户有274人。表格5表格5反映的是模型在纳入变量之前(只包含常数项时的基本信息)。表格6表格6反映了在模型纳入变量之前(仅含常数项时),各个变量的信息(包括Score检验统计量及相应p值,Score检验用于检验变量系数的显著性)。表格7表格7反映了模型的显著性检验,也就是检验整体模型中所有变量系数不同时为0,说明自变量对与因变量之间存在显著的线性关系。表格8表格8反映了模型的拟合优度检验,三个数据均反映了自变量对因变量的解释效果,其中最大似然估计值统计量(-2 Log likelihood)越小模型越好,Cox & Snell R^{2} 和Nagelkerke R^{2} 的值越大模型越好;从案例结果来看,模型拟合效果不是很理想,说明自变量对因变量的解释能力较弱,模型自变量选取存在遗漏。表格9表格9反映了模型结果的混淆矩阵,混淆矩阵是判断模型预测准确性最直观的方式,可以看到在实际未流失的客户中模型识别出其中的 91.2%,在实际流失的客户中模型识别出其中的 47.1%,模型的整体准确率为 79.1%。......表格10表格10是最核心的内容,即参数估计矩阵,因为我们选择的是逐步回归方法,所有模型结果会展示每一步,为了节省空间,我们主要看最后一步,也是最终模型的系数检验结果;表格输出每个系数的估计值以及相关检验信息。根据参数估计值,可以得出最后的表达成为:ln\frac{p}{1-p}=-0.112+0.294Ininc-0.538internet(1)-0.494voice(1)+0.017cardmon+0.947callcard(1)-0.761equip(1)-0.046employ-0.037tenure ......表格11表格11为变量的相关系数矩阵。同时我们可以根据建立的模型进行预测,在数据源节点节点导入新数据后(自变量数据),我们可以利用建立好的模型对因变量进行预测,判断基于新的自变量数据,客户是流失还是不流失。从输入数据的预测结果来看,基于输入的自变量模型预测是客户不会流失。对应不流失的概率(1-p)为76%。}

我要回帖

更多关于 SS在统计学中代表什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信