X1s算法里的计算参数怎么设置,具体每个数值对应输出文件的哪里?

        线性分类:指存在一个线性方程可以把待分类数据分开,或者说用一个超平面能将正负样本区分开,表达式为y=wx,这里先说一下超平面,对于二维的情况,可以理解为一条直线,如一次函数。它的分类算法是基于一个线性的预测函数,决策的边界是平的,比如直线和平面。一般的方法有感知器,最小二乘法。

  非线性分类:指不存在一个线性分类方程把数据分开,它的分类界面没有限制,可以是一个曲面,或者是多个超平面的组合。

   LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解一下它的算法原理。不过在学习LDA之前,我们有必要将其与自然语言处理领域中的LDA区分开,在自然语言处理领域,LDA是隐含狄利克雷分布(Latent DIrichlet Allocation,简称LDA),它是一种处理文档的主题模型,我们本文讨论的是线性判别分析,因此后面所说的LDA均为线性判别分析。

,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离,即模式在该空间中有最佳的可分离性。

False#rc配置或rc参数,通过rc参数可以修改默认的属性,包括窗体大小、每英寸的点数、线条宽度、颜色、样式、坐标轴、坐标和网络属性、文本、字体等。

  4.月亮数据集的二分法:

# 将源数据 映射到 3阶多项式
}

和SVM一样, 决策树是一种多功能机器学习算法, 即可以执行分类任务也可以执行回归任务, 甚至包括多输出(multioutput)任务。

它是一种功能很强大的算法,可以对很复杂的数据集进行拟合。例如,在第二章中对加利福尼亚住房数据集使用决策树回归模型进行训练,就很好的拟合了数据集(实际上是过拟合)。

决策树也是随机森林的基本组成部分(见第7章),而随机森林是当今最强大的机器学习算法之一

在本章中,将首先讨论如何使用决策树进行训练,可视化和预测。

然后会学习在 Scikit-learn 上面使用 CART 算法,并且探讨如何调整决策树让它可以用于执行回归任务。

最后,讨论一下决策树目前存在的一些局限性。

为了理解决策树,先构建一个决策树并亲身体验它到底如何进行预测。

接下来的代码就是在鸢尾花数据集上进行一个决策树分类器的训练。

可以通过使用export_graphviz()方法,通过生成一个叫做iris_tree.dot的图形定义文件将一个训练好的决策树模型可视化。

等多种数据格式。例如,使用命令行将.dot文件转换成.png文件的命令如下:

[1] Graphviz是一款开源图形可视化软件包,。

第一个决策树如图 6-1。

图6-1. 鸢尾花决策树

现在来看看在图 6-1 中的树是如何进行预测的。

决策树的众多特性之一就是, 它不需要太多的数据预处理, 尤其是不需要进行特征的缩放或者归一化。

节点的samples属性统计出它应用于多少个训练样本实例。

例如,有100个训练实例是花瓣长度大于 2.45 里面的(深度为 1, 右侧),在这 100 个样例中又有 54 个花瓣宽度小于 1.75cm(深度为 2,左侧)。

节点的value属性告诉你这个节点对于每一个类别的样例有多少个。

节点的Gini属性用于测量它的纯度:如果一个节点包含的所有训练样例全都是同一类别的,就说这个节点是纯的(Gini=0)。

例如,深度为 1 的左侧节点只包含 Iris-Setosa 训练实例,它就是一个纯节点,Gini 指数为 0。

公式 6-1 显示了训练算法如何计算第i个节点的 gini 分数 。例如, 深度为 2 的左侧节点基尼指数为:。另外一个纯度指数也将在后文很快提到。

  • 是第i个节点中训练实例为的k类实例的比例

图 6-2(上图)显示了决策树的决策边界。粗的垂直线代表根节点(深度为 0)的决策边界:花瓣长度为 2.45 厘米。由于左侧区域是纯的(只有 Iris-Setosa),所以不能再进一步分裂。然而,右边的区域是不纯的,所以深度为 1 的右边节点在花瓣宽度为 1.75 厘米处分裂(用虚线表示)。又由于max_depth设置为 2,决策树在那里停了下来。但是,如果将max_depth设置为 3,两个深度为 2 的节点,每个都将会添加另一个决策边界(用虚线表示)。

模型小知识:白盒与黑盒

正如我们看到的一样,决策树非常直观,它的决策很容易解释。这种模型通常被称为白盒模型。相反,随机森林或神经网络通常被认为是黑盒模型。他们能做出很好的预测,并且可以轻松检查它们做出这些预测过程中计算的执行过程。然而,人们通常很难用简单的术语来解释为什么模型会做出这样的预测。例如,如果一个神经网络说一个特定的人出现在图片上,我们很难知道究竟是什么导致了这一个预测的出现:

决策树还可以估计某个实例属于特定类k的概率:首先遍历树来查找此实例的叶节点,然后它返回此节点中类k的训练实例的比例。

首先使用单个特征k和阈值 (例如,“花瓣长度≤2.45cm”)将训练集分成两个子集。它如何选择k和阈值呢?它寻找一对 ,能够产生最纯粹的子集(通过子集大小加权计算)。算法尝试最小化的损失函数,如公式

公式6-2. CART进行分类的损失函数

当它成功的将训练集分成两部分之后, 它将会继续使用相同的递归式逻辑继续的分割子集,然后是子集的子集。当达到预定的最大深度之后将会停止分裂(由max_depth超参数决定),或者是它找不到可以继续降低不纯度的分裂方法的时候。几个其他超参数(之后介绍)控制了其他的停止生长条件(min_samples_splitmin_samples_leafmin_weight_fraction_leafmax_leaf_nodes)。

正如所见,CART 算法是一种贪婪算法,贪婪算法通常会产生一个相当好的解决方法,但它不保证这是全局中的最佳解决方案。

不幸的是,找到最优树是一个 NP 完全问题:它需要 时间,即使对于相当小的训练集也会使问题变得棘手。 这就是为什么必须设置一个“合理的”(而不是最佳的)解决方案。

在建立好决策树模型后, 做出预测需要遍历决策树, 从根节点一直到叶节点。决策树通常近似左右平衡,因此遍历决策树需要经历大致 个节点。由于每个节点只需要检查一个特征的值,因此总体预测复杂度仅为 ,与特征的数量无关。 所以即使在处理大型训练集时,预测速度也非常快。

然而,训练算法的时候(训练和预测不同)需要比较所有特征(如果设置了max_features会更少一些)。这就使得训练复杂度为 。对于小训练集(少于几千例),Scikit-Learn 可以通过预先设置数据(presort = True)来加速训练,但是这对于较大训练集来说会显着减慢训练速度。

通常,算法使用 Gini 不纯度来进行检测, 但是也可以通过将标准超参数设置为"entropy"来使用熵不纯度进行检测。

在机器学习中,熵经常被用作不纯度的衡量方式,当一个集合内只包含一类实例时, 我们称为数据集的熵为 0。

公式 6-3 显示了第i个节点的熵的定义,例如,在图 6-1 中, 深度为 2 左节点的熵为 。

那么到底应该使用 Gini 指数还是熵呢? 事实上大部分情况都没有多大的差别:它们会生成类似的决策树。基尼指数计算稍微快一点,所以这是一个很好的默认值。但是,也有的时候它们会产生不同的树,基尼指数会趋于在树的分支中将最多的类隔离出来,而熵指数趋向于产生略微平衡一些的决策树模型。

决策树几乎不对训练数据做任何假设(与此相反的是线性回归等模型,这类模型通常会假设数据是符合线性关系的)。

如果不添加约束,树结构模型通常将根据训练数据调整自己,使自身能够很好的拟合数据,而这种情况下大多数会导致模型过拟合。

这一类的模型通常会被称为非参数模型,这不是因为它没有任何参数(通常也有很多),而是因为在训练之前没有确定参数的具体数量,所以模型结构可以根据数据的特性自由生长。

与此相反的是,像线性回归这样的参数模型有事先设定好的参数数量,所以自由度是受限的,这就减少了过拟合的风险(但是增加了欠拟合的风险)。


图 6-3(上图) 显示了对moons数据集(在第 5 章介绍过)进行训练生成的两个决策树模型,左侧的图形对应的决策树使用默认超参数生成(没有限制生长条件),右边的决策树模型设置为min_samples_leaf=4。很明显,左边的模型过拟合了,而右边的模型泛用性更好。

结果如图 6-4 所示

图6-4. 用决策树进行回归

这棵树看起来非常类似于你之前建立的分类树,它的主要区别在于,它不是预测每个节点中的样本所属的分类,而是预测一个具体的数值。例如,假设想对 的新实例进行预测。从根开始遍历树,最终到达预测值等于 0.1106 的叶节点。该预测仅仅是与该叶节点相关的 110 个训练实例的平均目标值。而这个预测结果在对应的 110 个实例上的均方误差(MSE)等于

两个决策树回归模型的预测

在图 6-5 (上图)的左侧显示的是模型的预测结果,如果将max_depth=3设置为 3,模型就会如 6-5 图(上图)右侧显示的那样。注意每个区域的预测值总是该区域中实例的平均目标值。算法以一种使大多数训练实例尽可能接近该预测值的方式分割每个区域。

图里面的红线就是训练实例的平均目标值,对应上图中的value

CART 算法的工作方式与之前处理分类模型基本一样,不同之处在于,现在不再以最小化不纯度的方式分割训练集,而是试图以最小化 MSE 的方式分割训练集。

公式 6-4 显示了该算法试图最小化的损失函数。

和处理分类任务时一样,决策树在处理回归问题的时候也容易过拟合。如果不添加任何正则化(默认的超参数),得到的图形就会过拟合。

正则化一个决策树回归器

图 6-6(上图)左侧的预测结果,显然,过度拟合的程度非常严重。设置了min_samples_leaf = 10,相对就会产生一个更加合适的模型了,就如图 6-6 (上图)右侧所示的那样。

决策树很容易理解和解释,易于使用且功能丰富而强大。然而,它也有一些限制,首先,决策树很喜欢设定正交化的决策边界,(所有边界都是和某一个轴相垂直的),这使得它对训练数据集的旋转很敏感。
对训练集数据旋转的敏感性

图 6-7(上图)显示了一个简单的线性可分数据集。在左图中,决策树可以轻易的将数据分隔开,但是在右图中,当把数据旋转了 45° 之后,决策树的边界看起来变的格外复杂。尽管两个决策树都完美的拟合了训练数据,右边模型的泛化能力很可能非常差。 解决这个难题的一种方式是使用 PCA 主成分分析(第八章),这样通常能使训练结果变得更好一些。

更加通俗的讲,决策时的主要问题是它对训练数据的微小变化非常敏感,举例来说,仅仅从鸢尾花训练数据中将最宽的 Iris-Versicolor 拿掉(花瓣长 4.8 厘米,宽 1.8 厘米),然后重新训练决策树模型,

得到图 6-8(上图)中的模型。决策树有了非常大的变化(相比原来的图 6-2),事实上,由于 Scikit-Learn 的训练算法是非常随机的,即使是相同的训练数据你也可能得到差别很大的模型(除非设置了随机数种子)。

在下一章中将会看到,随机森林可以通过多棵树的平均预测值限制这种不稳定性。

7. 对moons数据集进行决策树训练并优化模型。

进行交叉验证,并使用网格搜索法寻找最好的超参数值。(提示: 尝试各种各样的max_leaf_nodes值)

使用这些超参数训练全部的训练集数据,并在测试集上测量模型的表现。

接着前边的练习,现在,生成 1000 个训练集的子集,每个子集包含 100 个随机选择的实例。(提示:可以使用 Scikit-Learn 的ShuffleSplit类。)

使用上面找到的最佳超参数值,在每个子集上训练一个决策树。在测试集上测试这 1000 个决策树。

由于它们是在较小的集合上进行了训练,因此这些决策树比第一个决策树效果更差,只能达到约 80% 的准确度。

对于每个测试集实例,生成 1000 个决策树的预测结果,然后只保留出现次数最多的预测结果(使用 SciPy 的mode()函数)。这个函数可以对测试集进行多数投票预测。

在测试集上评估这些预测结果

}

完整代码及其数据,请移步小编的GitHub

  下面我们用一个实例学习SVM RBF分类调参(此例子是刘建平老师的博客内容,链接在文后)。

  首先,我们生成一些随机数据,为了让数据难一点,我们加入了一些噪音,代码如下:

10,SVM调参实例3(非线性支持向量机)

  非线性的话,我们一方面可以利用核函数构造出非线性,一方面我们可以自己构造非线性。下面首先学习自己构造非线性。



}

我要回帖

更多关于 表达式10mod3的值多少 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信