Question

我有一个数据集（CSV文件），可以使用Apriori算法查找频繁项目集。

col1, col2, col3
bread, butter,?
coke, bread, butter

我正在为此目的使用WEKA。输出采用以下格式：

...
Large Itemsets L(2):
col1=bread  col2= butter 1
col1=coke  col2= bread 1
col1=coke  col3= butter 1
col2= bread  col3= butter 1
...

但我想要的输出是：

bread, butter 2

基本上，上述输出独立于它们所属的col。我怎样才能实现这种输出？

Answer 1

以不同方式格式化数据。

Weka希望列是相同的产品，并且值为t / f（对于true，false）。然后你得到那种牛奶的项目集= t - ＆gt;黄油= T

请参阅Weka附带的.arff示例。

我想我看到了一个使用输入格式的ELKI示例。