什么是关联规则java apriori?如何利用apriori算法在给定的数据集合上找出关联规则java apriori

数据挖掘中涉及的关联规则在实际生活中的应用有哪些?实际中能够提供给商家怎样的解决方案?
数据挖掘中关联规则在实际生活中的应用有哪些?像最小支持度、最小可信度、apriori算法这些内容在实际中能够提供给商家怎样的解决方案?
按投票排序
这个还真就是啤酒和尿布的例子最有名了。而其他相关的应用几乎绝迹的原因我觉得很大一部分是关联规则挖掘,尤其是Apriori算法产生的规则太多了!!!以至于还要用方法去挖掘产生的规则中哪些是有意义的。这就让我对啤酒和尿布的故事产生了怀疑。其实我想说的是如果是要找关联规则的话,还有很多方法,比一定要用类Apriori和类FP-Tree的算法。有时候,把关联问题转化为分类问题和聚类问题往往也是可行的,就看如何解读结果,产生规则了。比如说,会蹦蹦跳跳的长着毛茸茸尾巴的经常在树立里面出现的爱吃种子和果仁的哺乳动物是松鼠就是一个不错的规则嘛,完全可以和鸟类这种会飞的长着毛茸茸尾巴的经常在树立里面出现的爱吃种子和果仁的哺乳动物区分开。通过对聚类算法找到的簇进行恰当的描述也是可以总结出规律来的。这个就不举例子了。如果按照上面我定义的“广义”关联规则的话,那么商业应用就多去了。
关联规则最典型的可能就是那个啤酒和尿布的例子了。说起来很惭愧,做DM这么些年没什么建树,基本混日子了。之前写过一篇科普型的文章。为了省事,直接从自己空间()中复制下文。:D数据挖掘是个科学技术名词,又叫知识发现。但在商业领域,它基本与商业智能概念等同。其实商业智能属于管理学科概念,有更多的管理属性。我国信息化进程已经有年,这当中企业数据积累多了,必然有挖掘新知识的需求。企业往往希望从以往的业务数据中找到一定的规律,用以辅助未来的经营决策,而这当中,传统的统计学方法是不够用的。尽管数据挖掘并非一定使用数学模型,但数据挖掘思想仍然来源于统计学。典型的数据挖掘有分类、聚类、孤立点分析、关联规则、预测等。分类很好理解,是按照一定的规则,将元组划分为若干类别;聚类与分类的差异,就是在于并不会先入为主地给出规则,而是按照集合本身的特点来划分为若干类别,正所谓“物以类聚”。聚类的思想其实非常简单,举一个信用卡的例子。银行为了有针对性地对信用卡用户进行营销,首先要对用户进行市场细分。你当然可以按照一个简单的规则,如“年龄”,“职业”,“职位”,“收入级别”来对用户进行有规则的分类,但这样子太主观了,谁能保证划分出来的几个用户群体的用卡行为就一定是接近的呢?为了尽量找到用卡行为相似的用户群体,为什么不从历史以来的用户用卡行为中去寻找呢?既然一个用户以前消费行为是这样,可想而知其未来大致也差不离。再辅之以用户基本信息如上述“年龄”,“职业”,“职位”,“收入级别”等,也就更容易做到准确定位用户,从而实现业界常说的“精准营销”。例如,挖掘发现,有一类用户每隔一段时间习惯性地提取少量现金,而用卡消费往往在一些百货公司的奢侈品柜台,那么大致可以圈定这样一个用户群体,给他们寄账单的时候信封里塞上奢侈品广告也就自然而然了,这样是不是不管青红皂白塞些超市折扣券要精准得多呢?举这个例子是因为我的信用卡账单信封里经常有香港旅游和消费的广告,但我的信用卡记录中其实从来没有在香港有过消费,更不会有旅游信息,营销方只是按照我的基本资料,自以为是地认为我这样的一个人很容易在香港产生旅游和购物而已。还有一些应用在电信行业,例如根据用户的语音通信历史资料,圈定若干用户群,然后有针对性地设计套餐。例如亲情长途电话,就是这个行业一个很贴心的设计。关联规则。业界有非常出名的“啤酒和尿布”的经典案例,但有更好玩的例子说明问题。坊间流传着无数股市的技术分析“秘笈”,如果我没记错的话,诸如《短线是银》,《三线开花》,《筹码分布》,《K线力学》书籍等等等等,可称为浩如烟海。我看过若干,发现其实这些书籍都属于实战经验的总结,然而人毕竟不是机器,会受到情绪的影响,无法一折不扣地执行策略,而这个正是计算机的强项。同时总结的经验规则到底靠不靠谱呢?还只是偶尔出现的情况?若只是偶然发生的巧合被当作常用的规律,投资者可就赔惨了!对于这些书中普遍缺乏严谨的验证——没有计算机等工具的话,事实上也没法验证——往往只是举个个例来说明问题。计算机在历史数据中检索,发现市场上出现情况A时,情况B就很可能会出现。形式化表达为规则:A--&B。不过这样还远远不够。要想这样的规则有效,显然得问两个问题:(1)情况A在整个市场运行中出现了多少次呢?(2)情况A出现若干次,随后情况B出现了多少次?占多大比例?对(1)我们要有个支持度指标 support,说明这样的情况是不是经常出现。对(2)我们也有个置信度指标 confidence,说明A出现后,B出现的可能性有多大。再具体一点的例子。一般股价跌到一定程度的时候,在底部都会有不少投资者抄底,从而形成类似蝌蚪似的大头小尾的“甲”字形K线图,这里称作“尾针”。“尾针”出现以后,是不是一定上涨呢?或者说上涨的可能性有多大呢?抛开用无数形容词天花乱坠吹嘘自己的炒股秘籍吧,这时候我们应该回到数据中。例如在中国股市这么多年,有10000次下跌,其中有7000次出现“尾针”,而这7000次“尾针”中,接下来4000次出现了上涨,而3000次下跌。即支持度为7/10,置信度为4/7。那么可以认为,投资者按照这个规则操作的话,有4/7的几率会成功,3/7的几率会失败——上例纯属虚构,切勿模仿喔。要那样简单的话我自己早发财了。。。实际的挖掘会比这个复杂很多。数据挖掘的应用非常广泛,这里只是举例一二说明问题而已。学术界研究的则越来越复杂和抽象,但诸如分类、聚类、孤立点分析、关联规则、预测这些基本技术已经发展成熟并且进入业界,也有现成的数据挖掘工具,也很容易找到类似的人才。这些对于提升企业业务水平,又重新开了一扇窗口。
最有名的例子应该是“啤酒和尿布”,但我不认为这是个成功的案例,甚至有点不靠谱。非常有可能我们在数据中发现啤酒和尿布这样的一条关联规则,但是如果你是沃尔玛超市的店长,你觉得在尿布货架周围放啤酒是个好主意么?在互联网里著名的成功案例是Amazon的推荐:看过这本书的人还看过……
。从读书的角度来说,这往往是非常靠谱的推荐。
网络故障定位就会用到,研究中
已有帐号?
无法登录?
社交帐号登录<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
您的访问请求被拒绝 403 Forbidden - ITeye技术社区
您的访问请求被拒绝
亲爱的会员,您的IP地址所在网段被ITeye拒绝服务,这可能是以下两种情况导致:
一、您所在的网段内有网络爬虫大量抓取ITeye网页,为保证其他人流畅的访问ITeye,该网段被ITeye拒绝
二、您通过某个代理服务器访问ITeye网站,该代理服务器被网络爬虫利用,大量抓取ITeye网页
请您点击按钮解除封锁&当前位置: &
求翻译:Apriori算法是由Agrawal、Imielinski和Swami提出的一种简单但很实用的关联规则数据挖掘算法[3-4]。是什么意思?
Apriori算法是由Agrawal、Imielinski和Swami提出的一种简单但很实用的关联规则数据挖掘算法[3-4]。
问题补充:
Apriori algorithm by Agrawal, Imielinski and Swami proposed a simple but very useful data mining algorithms of association rules [3-4].
Apriori Agrawal , Imielinski algorithms and Swami raised by a simple but very practical rules associated data mining algorithm [ 3 - 4 ].
But the Apriori algorithm is one kind which by Agrawal, Imielinski and Swami proposed simple very practical connection rule data mining algorithm [3-4].
Is Apriori algorithm by Agrawal, Imielinski and Swami produced a simple but very useful Association rules data mining algorithms [3-4].
Is Apriori algorithm by Agrawal, Imielinski and Swami produced a simple but very useful Association rules data mining algorithms [3-4].
我来回答:
参考资料:
* 验证码:
登录后回答可以获得积分奖励,并可以查看和管理所有的回答。 |
我要翻译和提问
请输入您需要翻译的文本!&#xe621; 上传我的文档
&#xe602; 下载
&#xe60c; 收藏
该文档贡献者很忙,什么也没留下。
&#xe602; 下载此文档
正在努力加载中...
关联规则挖掘的Apriori算法综述
下载积分:600
内容提示:关联规则挖掘的Apriori算法综述
文档格式:PDF|
浏览次数:3|
上传日期: 18:04:17|
文档星级:&#xe60b;&#xe612;&#xe612;&#xe612;&#xe612;
该用户还上传了这些文档
关联规则挖掘的Apriori算法综述
官方公共微信数据挖掘算法之-关联规则挖掘(Association&Rule)(购物篮分析)
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对做一个小的总结。
首先,和聚类算法一样,关联规则挖掘属于,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题;
为叙述方便,设R= { I1,I2
......Im}&是一组物品集,W&是一组事务集。W&中的每个事务T&是一组物品,T是R的子集。假设有一个物品集A,一个事务T,关联规则是如下形式的一种蕴含:A→B,其中A、B&是两组物品,A属于I子集,B属于I子集。
在关联规则中设计4个常用关键指标
1.置信度(confidence)
定义:设W中支持物品集A的事务中,有c&%的事务同时也支持物品集B,c&%称为关联规则A→B&的可信度。
通俗解释:简单地说,可信度就是指在出现了物品集A&的事务T&中,物品集B&也同时出现的概率有多大。
实例说明:上面所举的圆珠笔和笔记本的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了圆珠笔,那么他也购买笔记本的可能性有多大呢?在上述例子中,购买圆珠笔的顾客中有65%的人购买了笔记本,&所以可信度是65%。
概率描述:物品集A对物品集B的置信度confidence(A==&B)=P(A|B)
2.支持度(support)
定义:设W&中有s&%的事务同时支持物品集A&和B,s&%称为关联规则A→B&的支持度。支持度描述了A&和B&这两个物品集的并集C&在所有的事务中出现的概率有多大。
通俗解释:简单地说,A==&B的支持度就是指物品集A和物品集B同时出现的概率。
实例说明:某天共有1000
个顾客到商场购买物品,其中有150个顾客同时购买了圆珠笔和笔记本,那么上述的关联规则的支持度就是15%。
概率描述:物品集A对物品集B的支持度support(A==&B)=P(A n
3.期望置信度(Expected confidence)
定义:设W&中有e&%的事务支持物品集B,e&%称为关联规则A→B&的期望可信度度。
通俗解释:期望可信度描述了在没有任何条件影响时,物品集B&在所有事务中出现的概率有多大。
实例说明:如果某天共有1000&个顾客到商场购买物品,其中有250&个顾客购买了圆珠笔,则上述的关联规则的期望可信度就是25
概率描述:物品集A对物品集B的期望置信度为support(B)=P(B)
4.提升度(lift)
定义:提升度是可信度与期望可信度的比值
通俗解释:提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。
实例说明:上述的关联规则的提升度=65%/25%=2.6
概率描述:物品集A对物品集B的期望置信度为lift(A==&B)=confidence(A==&B)/support(B)=p(B|A)/p(B)
总之,可信度是对关联规则的的衡量,是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
在关联规则挖掘中,满足一定最小置信度以及支持度的集合成为频繁集(frequent
itemset),或者强关联。关联规则挖掘则是一个寻找频繁集的过程。
关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷,J.
Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 apriori算法java实现 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信