<股票配资网大全>watson analytics WEKA中利用关联规则分析探索数据潜在模式,Apriori算法并非适用于大规模数据集?股票配资网大全>
在WEKA中,我们可以利用关联规则分析功能来探索数据集中的潜在模式。但需要注意的是,对于大规模数据集,算法可能并非最佳选择。以"bank-data"数据为例,我们可以使用打开"bank-data-final.arff",切换到""选项卡,这里默认的算法将被用于分析。但可以调整参数,例如通过点击""右边的文本框,选择"More"来了解每个参数的含义。
算法的核心是支持度和置信度,它们分别衡量规则L->R在购物篮中出现的概率。规则的支持度表示同时观察到L和R的概率,置信度则表示在观察到L后R出现的概率。其他度量如Lift、和也是衡量规则关联程度的方式,Lift越大说明L和R的关联性越强,和则分别表示L和R的独立性程度。
为了挖掘出重要规则,我们可以设定参数,如支持度范围(10%至100%),Lift值大于1.5,选取前100个规则。在中点击"Start",将开始执行算法,结果显示数据集摘要和挖掘结果。例如,前五个Lift值最高的规则如下:
除了图形用户界面,我们还可以通过命令行工具进行关联规则挖掘,比如使用算法的命令格式为:
java weka.. -t "-path"bank-data-final.arff
这里的选项可以根据需要调整,如设置支持度、Lift值等。通过命令行工具,可以挖掘不同项数的频繁项集,具体命令如:
java weka.. -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t "d:weka"bank-data-final.arff
命令执行后,会返回相应的挖掘结果,格式与GUI操作一致。
扩展资料
Weka的全名是怀卡托智能分析环境( for )watson analyticswatson analytics WEKA中利用关联规则分析探索数据潜在模式,Apriori算法并非适用于大规模数据集?,是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-- )的,基于JAVA环境下开源的机器学习( )以及数据挖掘(data )软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New 独有的一种鸟名,而Weka的主要开发者同时恰好来自New 的the of 。