R语言与数据分析之十：购物篮分析

浏览数：30 / 时间：2015年06月08日

提到数据挖掘，我们第一反应就是之前听到的啤酒和尿不湿的故事，该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为，关联分析针对离散数据；

常见关联规则：

关联规则：牛奶=>鸡蛋【支持度=2%，置信度=60%】

支持度：分析中的全部事务的2%同时购买了牛奶和鸡蛋，需设定域值，来限定规则的产生；

置信度：购买了牛奶的筒子有60%也购买了鸡蛋，需设定域值，来限定规则的产生；

最小支持度阈值和最小置信度阈值：由挖掘者或领域专家设定。

与关联分析相关的专业术语包括：

项集：项（商品）的集合

k-项集：k个项组成的项集

频繁项集：满足最小支持度的项集，频繁k-项集一般记为Lk

强关联规则：满足最小支持度阈值和最小置信度阈值的规则

接下来以两步法为例，揭秘下关联分析的做法：

如下有9个购物篮（T100-T900）：两步法先找出所有的频繁项集；第二步再由频繁项集产生强关联规则。

技术分享

算法步骤：

Step1：扫描D，对每个候选项计数，生成候选1-项集C1，并算出每项的关联度计数（即该项出现的频数）；
Step2：定义最小支持度阀值为2（即剔除频数低于2的项），记剩余的项集为L1；
Step3：由L1 两两配对生成新的2-项集C2；
Step4：扫描D，对C2里每个项计数，定义最小支持度阀值为2（即剔除频数低于2的项），记剩余的项集为2-项集L2；
Step5：由L2 两两配对生成新的3-项集C3；
……如此循环，直至出现最大的n-项集结束；

以上述例子为例，图解过程如下：

如图为例，我们计算频繁项集{I1,I2,I5}，可以发现I1^I2=>I5，由于{I1,I2,I5}出现了2次，{I1,I2}出现了4次，故置信度为2/4=50%

类似可以算出：

技术分享

利用R进行购物篮分析，R中关联分析函数为arules,我们采用内置的Groceries的数据集（如下）；

Inspect(Groceries)

具体的R语言实现如下：

library(arules)
data(Groceries)
frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))
inspect(sort(frequentsets,by="support")[1:10]) #根据支持度对求得的频繁项集排序

结果如下：可见所有的关联规则的排名：

接下来以阀值挑选我们的需要的关联项：

rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
inspect(rules)

由此可见购物篮就完成，其中lift是相关度指标，lift=1表示L和R独立，lift越大表明L和R在同一购物篮绝非偶尔现象，更加支持我们的购物篮决策。

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

R语言与数据分析之十：购物篮分析

标签：编程语言 Java C C# Javascript js Python Ruby Spring 程序 VB

R语言与数据分析之十：购物篮分析

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

您可能还喜欢

您可能还喜欢

文摘排行

文章排行

推荐文章

图文排行

推荐图文