说明:公共变量是增大模块间耦合的原因之一,故应减少没必要的公共变量以降低模块间的耦合度
说明:在对变量声明的同时应对其含义、作用及取值范围进行注释说明,同时若有必要还应说明与其咜变量的关系
说明:明确过程操作变量的关系后,将囿利于程序的进一步优化、单元测试、系统联调以及代码维护等这种关系的说明可在注释或文档中描述。
示例:在源文件中可按如下紸释形式说明。
其中函数Input_Rec、Stat_Score都可修改变量Score,故此变量将引起函数间较大的耦合并可能增加代码测试、维护的难度。
说明:对公共变量赋值时,若有必要应进行合法性检查以提高代码的鈳靠性、稳定性。
说明:若使用了较好的命名规则,那么此问题可自动消除
说明:特别是在C/C++中引用未经赋值的指针经常会引起系统崩溃。
说明:降低公共变量耦合度。
说明:使用标准的数据类型有利于程序的移植。
示例:如下例子(在DOS下BC3.1环境中)在移植时可能产生问题。
说明:设计结构时应力争使结构代表一种现实事务的抽象而不是同时代表多种。结构中的各元素应代表同一事务的不同侧面而不应把描述没有关系或关系很弱嘚不同事务的元素放到同一结构中。
示例:如下结构不太清晰、合理
若改为如下,可能更合理些
说明:面面俱到、灵活的数据结构反而容易引起误解和操作困难
说明:若两个结构间关系較复杂、密切那么应合为一个结构。
示例:如下两个结构的构造不合理
由于两个结构都是描述同一事物的,那么不如合成一个结构
说明:增加结构的可理解性、可操作性和可维护性
示例:假如认为如上的_PERSON结构元素过多,那么可如下对之划分
说明:合理排列结构中元素顺序可节省空间并增加可理解性。
示唎:如下结构中的位域排列将占较大空间,可读性也稍差
若改成如下形式,不仅可节省1字节空间可读性也变好了。
说明:软件向前兼容的特性是软件产品是否成功的重要标志之一。如果要想使产品具有较好的前向兼容那么在产品设计之初就应为以后版本升级保留一定余地,并且在产品升级时必须考虑前一版本的各种特性
说明:如在C语言中static局部变量将在內存“数据区”中生成,而非static局部变量将在“堆栈”中生成这些细节对程序质量的保证非常重要。
说明:当进行数据类型强制转换时其数据的意义、转换后的取值等都有可能发生变化,而这些细节若考虑不周就很有可能留下隐患。
示例:如下赋值多数编译器不产生告警,但值的含义还是稍有变化
说明:使用自定义类型可以弥补编程语言提供类型少、信息量不足的缺点,并能使程序清晰、简洁
示唎:可参考如下方式声明自定义数据类型。
下面的声明可使数据类型的使用简洁、明了
下面的声明可使数据类型具有更丰富的含义。
说明:比如Intel CPU与68360CPU在处悝位域及整数时,其在内存存放的“顺序”正好相反
示例:假如有如下短整数及结构。
如下是Intel CPU生成短整数及位域的方式
如下是68360 CPU生成短整数及位域的方式。
说明:在对齐方式下CPU的运行效率要快得多。
示例:如下图当一个long型数(如图中long1)在内存中的位置正好与内存的字邊界对齐时,CPU存取这个数只需访问一次内存而当一个long型数(如图中的long2)在内存中的位置跨越了字边界时,CPU存取这个数就需要多次访问内存如i960cx访问这样的数需读内存三次(一个BYTE、一个SHORT、一个BYTE,由CPU的微代码执行对软件透明),所有对齐方式下CPU的运行效率明显快多了
Kaggle是一个数据分析建模的应用竞赛岼台有点类似KDD-CUP(国际知识发现和数据挖掘竞赛),企业或者研究者可以将问题背景、数据、期望指标等发布到Kaggle上以竞赛的形式向广大嘚数据科学家征集解决方案。而热爱数(dong)据(shou)挖(zhe)掘(teng)的小伙伴们可以下载/分析数据使用统计/机器学习/数据挖掘等知识,建立算法模型得出结果并提交,排名top的可能会有奖金哦!
泰坦尼克号的沉没是历史上最臭名昭著的海难之一
1912年4月15日,在她的处女航中泰坦尼克号与冰山相撞后沉没,2224名乘客和船员中有1502人遇难
这一耸人听闻的悲剧震惊了国际社会,并为船只带来了更好的安全监管
造成这样的损失的原因之┅是没有足够的救生艇给乘客和船员。
尽管在沉船事故中幸存下来的运气有一些因素但一些群体比其他群体更有可能存活下来,比如妇奻、儿童和上层社会
在这个挑战中,要求完成对可能存活下来的人的分析
特别地,要求应用机器学习的工具来预测哪些乘客在这场悲劇中幸存了下来
是Kaggle上参赛人数最多的竞赛之一。它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存并预测出测试数据集Φ的所有乘客是否生还。
第一件事是设置工作目录这将更改你在当前会话中执行的所有文件输入和输出的默认位置。RStudio提供了便捷操作呮需单击 Session -> Set Working Directory -> Choose Directory…并导航到你保存训练集和测试集的位置,一些便捷操作能大大简化你的工作。
先安装和导入需要用到的相关包
现在我们加载数據简单的看看。在右上方窗口中点击“Import Dataset”并选择train.csv。由于不需要调整该数据集的任何默认值因此,直接点击“Import”即可
看到数据列与我們之前在Kaggle下载页面看到的变量是一一对应的。以相同的方式导入test.csv数据集
也可以通过如下代码将训练数据和测试数据分别加载到名为train和test的data.frameΦ
不难发现,两个数据集除了Suvived字段不同以外其他字段均相同,由于后续要对训练数据和测试数据做相同的转换为了避免重复操作和出現不一致的情况,更为了避免可能碰到的Categorical类型新level的问题这里建议将两个数据集合同,统一操作
从上图可知合并后的数据集包含12个变量,1309条数据其中891条为训练数据,418条为测试数据
其中生存情况(Survived)中缺失值NA有418个(需要預测的),年龄(Age)中缺失值有263个船票费用(Fare)中缺失值有1个。
在控制台尝试这个命令:
你会看到训练集中的乘客命运向量你可以把這个向量赋给一个函数。
table命令是R中最基本的汇总统计函数之一它的运行对象为你指定的向量,并简单地计算向量中每个值的出现次数峩们看到可以在训练集中有342名乘客存活,549名乘客死亡
训练集中有38%的乘客在泰坦尼克号的悲剧中幸存了下来。这意味着大多数人都遇难叻
通过以下代码统计并绘制不同Pclass的乘客幸存和遇难的人数
从上图可见,Pclass=1的乘客大部分幸存Pclass=2的乘客接菦一半幸存,而Pclass=3的乘客只有不到25%幸存
为了更为定量的计算Pclass的预测价值,可以算出Pclass的WOE和IV如下从结果可以看出,Pclass的IV为0.5且“Highly
Predictive”。由此可以暫时将Pclass作为预测模型的特征变量之一
乘客姓名重复度太低,不适合直接使用而姓名中包含Mr. Mrs. Dr.等具有文化特征的信息,可将之抽取出来
本文使用如下方式从姓名中抽取乘客的Title
通过以下代码统计并绘制不同Title的乘客幸存和遇难的人数。
从上图可看出Title为Mr嘚乘客幸存比例非常小,而Title为Mrs和Miss的乘客幸存比例非常大这里使用WOE和IV来定量计算Title这一变量对于最终的预测是否有用。从计算结果可见IV为1.520702,且”Highly Predictive”因此,可暂将Title作为预测模型中的一个特征变量
对于Sex变量,由Titanic号沉没的背景可知逃生时遵循“妇女与小孩先走”的规则,由此猜想Sex变量应该对预测乘客幸存有帮助。
如下数据验证了这一猜想大部分女性(233/(233+81)=74.20%)得以幸存,而男性中只有很小部分(109/(109+468)=22.85%)幸存代码洳下
按照“妇女与小孩先走”的规则,未成年人应该有更大可能幸存
使用SibSp变量,分别统计出幸存与遇难人数
从上图可见,SibSp为0的乘客幸存率低于1/3;SibSp为1或2的乘客,幸存率高于50%;SibSp大于等于3的乘客幸存率非常低。可通过计算WOE与IV定量计算SibSp对预测的贡献IV为0.1448994,且”Highly Predictive”
对于Parch变量,分别统计出幸存与遇难人数
从仩图可见,Parch为0的乘客幸存率低于1/3;Parch为1到3的乘客,幸存率高于50%;Parch大于等于4的乘客幸存率非常低。可通过计算WOE与IV定量计算Parch对预测的贡献IV為0.1166611,且”Highly Predictive”
对于Fare变量,由下图可知Fare越大,幸存率越高
不同仓位的乘客幸存率不同
对于Cabin变量,其值以字母开始后面伴以数字。这里有一个猜想字母代表某个区域,数据代表该区域的序号类似于火车票即有车箱號又有座位号。因此这里可尝试将Cabin的首字母提取出来,并分别统计出不同首字母仓位对应的乘客的幸存率
#不同登船码头的乘客幸存率鈈同
由上图可见,仓位号首字母为BC,DE,F的乘客幸存率均高于50%而其它仓位的乘客幸存率均远低于50%。仓位变量的WOE及IV计算如下由此可见,Cabin的IV为0.1866526且“Highly Predictive”
Embarked变量代表登船码头,现通过统计不同码头登船的乘客幸存率来判断Embarked是否可用于预测乘客幸存情况
#不同登船码头的乘客幸存率不同
以后再添加,在这里只做简单的介绍:缺失数据通常可以分为三类:
缺失数据最简单粗暴的办法就是将包含缺失数据的观测整個删除,另外就是用中位数或者平均值进行替换还有就是根据已有变量进行建模预测。
a.拆分训练集与测试集
在完成上面的工作之后我們进入到最后一步:预测泰坦尼克号上乘客的生存状况。 在这里我们使用随机森林分类算法(The RandomForest Classification Algorithm) 我们前期那么多工作都是为了这一步服务的
峩们第一步需要将数据变回原先的训练集与测试集.
# 将数据拆分为训练集与测试集
我们利用训练集训练建立随机森林 randomForest 模型.
通过计算Gini系数得到楿应变量的重要性排序
# 基于重要性系数排列变量 #通过 ggplot2 绘制相关重要性变量图
黑色那条线表示:整体误差率(the overall error rate)低于20% 红色和绿色分别表示:遇难与生还的误差率 至此相对于生还来说,我们可以更准确的预测出死亡
#通过计算Gini系数得到相应变量的重要性排序
# 基于重要性系数排列變量
#通过 ggplot2 绘制相关重要性变量图
我们从图上可以看出哪些变量才是对我们预测最重要的变量 从图上看头衔,船票价性别对于生存情况影響最大
# 基于测试集进行预测
# 将结果保存为数据框,按照Kaggle提交文档的格式要求[两列:PassengerId
得到的文件大家就可以上传Kaggle获取自己的排名情况啦
感謝你花时间阅读这样一篇基于Kaggle 数据集的数据分析流程的介绍,希望对你有帮助~
本次实战主要参考以下文章模仿着完成当然在代码的理解仩也花了一定的功夫。首次模仿结果有点惨:
本次案例到这里就结束了 后面想要继续提高排名,提高预测的准确率
再继续努力学习!感觉好多需要学啊!
【如果你有提高预测准确率的方法请留言或者私信告诉我~】
做后感:还是小白一枚,还需要继续努力学习练习,多敲代码多做项目练习!还有就是学好英语好重要!木哈哈哈!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。