未按预期获得子集

时间:2014-07-09 11:20:46

标签: java algorithm data-mining subset apriori

我试图找到数据集中频繁项目的计数。 所以我最初试图找到输入字符串的子集

Input:
coke,cracker,beer
coke,cracker

到目前为止我做的是

String[] transaction = value.toString().split(delim);
/*
 * Get subsets
 */
System.out.println("Transaction----"+Arrays.toString(transaction));
Arrays.sort(transaction);
int len = transaction.length;
long numofSubsets = (long) Math.pow(2, transaction.length);

for (long i = 1; i < numofSubsets; i++) {

    String j = String.format("%" + len + "s", Long.toBinaryString(i)).replace(' ', '0');
    String addVal = "";
    for (int l = 0; l < j.length(); l++) {
            if (j.charAt(l) == '0') {
             //do nothing
             } 
             else{
            addVal += transaction[l]+delim;
             System.out.println("addval---------- "+addVal);
             addVal = addVal.substring(0, addVal.length()-1);
              }
    }
}

输出

Transaction----[coke, cracker, beer]
addval---------- cracker
addval---------- coke
addval---------- coke
addval---------- coke,cracker
addval---------- beer
addval---------- beer
addval---------- beer,cracker
addval---------- beer
addval---------- beer,coke
addval---------- beer
addval---------- beer,coke
addval---------- beer,coke,cracker
Transaction----[coke, cracker]
addval---------- cracker
addval---------- coke
addval---------- coke
addval---------- coke,cracker

我希望子集为

 coke
    cracker
    beer
    coke,cracker
    coke,beer
    cracker,beer
    coke
    cracker
    coke,cracker


Transaction----[coke, cracker]
    addval---------- cracker
    addval---------- coke
    addval---------- coke
    addval---------- coke,cracker

此处coke正在获得repeated

我做错了什么。

请建议。

1 个答案:

答案 0 :(得分:0)

此处的问题是您的println声明的展示位置。由于它在生成要打印的字符串的循环内部,因此在打印所需的字符串之前会打印字符串的每个前缀。例如当你想要&#34;可乐,饼干,啤酒&#34;你得到了

coke coke, crackers coke, crackers, beer

要解决此问题,只需将println移到循环之外。