在WEKA-用于MICROARRAY DATA的数据挖掘软件中,如何从现有数据集中删除冗余元组?删除冗余的代码应该在JAVA中。
,即数据集包含诸如
之类的数据H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
这里的元组1,4,5是多余的。
代码应返回以下REDUNDANCY REMOVED数据集......
H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
答案 0 :(得分:2)
您可以使用其中一个实现Set的类,例如java.util.HashSet。
您可以将数据集加载到Set中,然后通过Set.toArray()方法转换为数组或通过遍历集合来提取它们。
Set<Tuple> tupleSet = new HashSet<Tuple>();
for (Tuple tuple: tupleList) { tupleSet.add(tuple); } // now all of your tuples are unique for (Tuple tuple: tupleSet) { System.out.println("tuple: " + tuple); }