我有一个数据集(CSV文件),可以使用Apriori算法查找频繁项目集。
col1, col2, col3
bread, butter,?
coke, bread, butter
我正在为此目的使用WEKA。输出采用以下格式:
...
Large Itemsets L(2):
col1=bread col2= butter 1
col1=coke col2= bread 1
col1=coke col3= butter 1
col2= bread col3= butter 1
...
但我想要的输出是:
bread, butter 2
基本上,上述输出独立于它们所属的col
。我怎样才能实现这种输出?
答案 0 :(得分:0)
以不同方式格式化数据。
Weka希望列是相同的产品,并且值为t / f(对于true,false)。然后你得到那种牛奶的项目集= t - >黄油= T
请参阅Weka附带的.arff示例。
我想我看到了一个使用输入格式的ELKI示例。