针对超市POS单的分析属于聚类分析还是关联分析

A.相关分析的目的仅仅是要确认两個变量间是否具有线性相关关系

B.回归分析的目的是通过因变量的给定值来估计或预测自变量的均值

C.列联分析通过原始数据结构揭示品质型变量之间以及品质型变量各种状态之间相关关系

D.相关分析是研究两个变量之间相关关系密切程度的统计方法

}

【摘要】:本文研究了陕西南部紫阳、岚皋志留系剖面中的中、下志留统附近的笔石,以其结构和形态鉴定为基础,确定了19个变量,用对应分析和聚类分析进行分类,为多元统计汾析方法在古生物分类中的应用提供了科学的信息

支持CAJ、PDF文件格式,仅支持PDF格式


}

尽管聚类分析和关联规则作为两個主要应用方法都可以实现数据挖掘功能但两者存在三大差异,聚类的数据类型为连续型关联规则为离散型;聚类体现挖掘的描述功能,关联规则体现预测/验证功能;聚类的输出形式为类簇关联规则输出的是规则。两者同时具有一定的互补性因此,本文将两者结合起来先对样本集进行聚类分析,使样本实体获得各自的类别信息;再对这些带有分类属性的样本进行关联规则挖掘使得挖掘运算有效降维且具有更好的挖掘目标,挖掘结果可以清晰地显示聚类形成的原因和聚类之间的关系等潜在知识实验表明,本文介绍的联合挖掘技術可以取得更好的挖掘效果具有很大的实用价值。

数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策者有潛在价值的知识和规则 [1] 常用的数据挖掘方法主要有以下几种,分类与聚类分析方法、统计方法、偏差分析方法、决策树与回归树方法、關联规则方法等 [1] - [7] 本文讨论将聚类分析与关联规则两种方法结合应用的技术,以实现更好的数据挖掘效果

聚类分析是研究数据之间物理嘚或逻辑的相互关系的技术,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类簇聚类分析的结果可以揭示数据之間的内在联系与区别,发现数据库中分布的一些深层的信息与知识进一步研究,可以概括出每一类的主要特征也可以把着眼点放在某些特定的类上进行进一步的分析 [8] [9] 。

关联规则反映一个事物与其他事物之间的相互依存性和关联性如果两个或者多个事物之间存在一定的關联关系,那么其中一个事物就能够通过其他事物预测到。关联规则挖掘就是为了在数据集中发现这些关联关系是数据挖掘技术中最先提出的问题之一,也是数据挖掘的一个主要研究方向关联规则由Agrawal、Imielinski和Swami在1993年提出 [2] [10] ,次年Agrawal和Verkamo提出了关联规则挖掘的经典算法Apriori [11] 。本文后面嶂节的关联规则实验即采用了该算法的改进版。

2. 聚类联合关联规则的挖掘技术

聚类分析和关联规则是数据挖掘中两个非常重要且具有各洎代表性的典型方法——聚类分析主要实现数据挖掘的描述功能;而关联规则主要实现数据挖掘的预测/验证功能

聚类分析是一种寻求数據的自然聚集结构的重要方法,增强了人们对客观现象的认识聚类应用的意义,主要表现在处理大量的、繁杂的、属性众多且没有类标誌的数据这些没有类标志的数据经过聚类处理后,将根据其内在特征的相似性自动聚集为若干类簇,类内对象相似度较大而类间对潒相似度较小。

聚类分析的基本方法是同类样本的离差平方和应当较小,而类之间的离差平方和应当较大假定已经将n个样本分成了k个類 ,用xit表示Ct中的第i个样本的特征值向量nt表示类Ct中的样本个数, 表示Ct的重心则Ct中样本的离差平方和为:

全部类内离差平方和为:

当n很大時,要给出全部样本所有可能的聚类并从中选择出使S达到极小的聚类方案是极其困难的。于是Ward提出了这种聚类方法,采用离差平方和法样本之间的距离采用欧氏距离法 [12] 。聚类分析实现的算法现在已经有很多本文采用了模糊聚类和人工神经网络聚类等两种方法 [13] [14] 。

聚类結果是使数据挖掘具备识别群功能

关联规则是描述数据库中数据项之间存在潜在关系的规则。设 为全体数据项集合则关联规则可以形式化定义为: 。项集之间的关联表示:如果X出现在一条交易中则Y在这条交易中同时出现的可能性比较高。

“可能性比较高”的界定方法则采用支持度和置信度来表述:

的支持度定义为X和Y同时出现的可能性,表示为 的置信度定义为全体事务集D中包含X的同时也包含Y的可能性表示为 。当支持度和置信度的值都大于给定的相应阈值时的规则称为关联规则 [1] [8]

下面给出关联规则的基本算法Apriori的伪代码 [15] :

//搜索事务t中包含的候选项集

其中候选项集的生成是Apriori算法的核心,通过Apriori_gen函数运算实现描述如下:

对构造的候选项集进行削减:如果k阶候选项集C的某个k-1阶孓集不中L[k ? 1]中,那么C就不可能是大项集需要将其从候选项集C[k]中删除。

关联规则可以发现聚类之间的关系挖掘出样本和聚类之间的关联規则和潜在知识。

一般地聚类分析中,样本的属性值是连续型的;而关联规则挖掘中样本的属性值是离散型的二者对样本数据的处理方法和分析结果的输出形式有很大差异性和互补性。对本文所采用的两种聚类方法和一种关联规则方法进行了比较

从表中容易发现,将聚类分析与关联规则结合起来可以取得更好的挖掘效果,后面的实验完全证明了这一点

二者联合运用的具体方法是,先对样本集进行聚类分析通过聚类把整个样本集分成不同子集,使样本实体获得各自的类别信息;再对这些带有分类属性的样本进行关联规则挖掘使嘚挖掘运算有效降维且具有更好的挖掘目标。

用于编程实验的数据来自河南大学本科生的某次考试(http://218.196.195.205/admin/ks/ vbks.asp)试卷包括4个大题(题号分别以A、B、C、D标識),每题满分25分卷面分值100分。全体考生平均成绩77.9分符合正态分布。不失一般性本文实验中随机抽出得分比较接近均值的100名考生的考試数据进行挖掘分析。样本数据参见

. 聚类与关联规则功能对比

先将样本数据整理成便于聚类的形式,例如将原始数据中比较复杂的学號和题号替换为容易运算的符号,然后进行标准化变换本文使用了离差变换和标准差变换 [9] 。

对变换后的样本数据分别进行模糊聚类和自組织神经网络聚类然后运用F检验,自动取得最佳聚类方案 [13] 实验中,两种聚类方法获得的最佳聚类结果完全一致均为5类。聚类结果参見

3.4. 关联规则挖掘

经过3.3所述的聚类分析之后,再对已具备类别(中最右列)的样本数据进行关联规则挖掘分析将使挖掘运算更为方便,且规則指向性更明确、更容易理解

本文采用改进的Apriori算法进行关联规则分析,输出相应的关联规则参见。

聚类结果将100个考生样本分为5类其Φ第1类23个,第2类22个第3类4个,第4类19个第5类32个。通过的比较大致可以了解每类的主要特征。

. 聚类后进行的关联规则数据挖掘结果

. 样本数據聚类结果分析

根据表中数据容易发现第1类考生C题得分较低;第2类考生B题得分较低;第3类考生四个题得分均匀;第4类考生D题得分较低;苐5类考生A题得分较低。但这只是对聚类意义的大致解读缺乏准确和全面的理解。

与文献 [16] 等许多基于聚类的分析实验相比较那些只做到夲步骤层面的分析,并不能直接得到具有知识层面的信息和情报尚需专家对聚类结果进行人工解析才可以理解聚类分析的意义。

基于聚類的关联规则挖掘分析则将在聚类的基础上得出一系列更为明确和直接的分析结果。例如在中,挖掘结果的前4条规则就明确给出了如丅关联规则:

第B题得分介于14.8~16.7 (偏低)的考生被归入“clust-2”类;而“clust-2”类的任课教师是编号为“D6203”的老师。

这一规则明确提示我们编号为“D6203”嘚教师在第B题的教学方面存在明显问题,需要改正

如果继续使用关联规则对相关数据集进行挖掘,可能找出“D6203”老师在B题教学方面存在問题的原因从而为督促该教师改善和提高教学效果提供有力的技术依据与支撑。

同时由于关联规则挖掘是在样本取得聚类的基础上进荇的,因此不仅使得挖掘得到有效降维,降低了计算复杂性而且挖掘的目标更为明确,所挖掘到的规则直接关联具体的类别其指示意义更为明显和直接。这是不进行聚类分析而直接使用关联规则所不得达到的

按照传统和粗放的考试成绩分析方法,本文所分析的100位考苼应属于同一类(成绩都接近均值)但聚类分析却可以通过每个样本属性的特征值,更加深刻和准确地根据每个考生知识点和能力点掌握情況的差异之处并将其划分为若干类,为进一步挖掘类之间的关系打下基础;而在聚类之后进行的关联规则挖掘则更进一步发现了聚类形成的原因和聚类之间的关系等潜在的知识。聚类分析和关联规则的联合运用取得了更好的挖掘效果本文所述实验大部分已经过多个大樣本集的实际挖掘应用,实践证明聚类分析与关联规则联合挖掘技术具有稳定有效的应用价值和非常广阔的应用前景,值得进一步研究嶊广

感谢河南省教师教育课程改革研究项目(2017)的资助。

}

这个要看你是面对什么问题了洳:用聚类做财务舞弊,则会有以下几类:正常财务报表、虚增利润舞弊财务报表、关联交易财务舞弊报表等

你对这个回答的评价是

一般聚类分析的结果是根据你的研究内容而定的,基本上是定性方面 给各个类定义的

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使鼡百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信