Question

在WEKA-用于MICROARRAY DATA的数据挖掘软件中，如何从现有数据集中删除冗余元组？删除冗余的代码应该在JAVA中。

，即数据集包含诸如

之类的数据

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0

这里的元组1,4,5是多余的。

代码应返回以下REDUNDANCY REMOVED数据集......

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0

Answer 1

您可以使用其中一个实现Set的类，例如java.util.HashSet。

您可以将数据集加载到Set中，然后通过Set.toArray（）方法转换为数组或通过遍历集合来提取它们。

Set<Tuple> tupleSet = new HashSet<Tuple>();

      
for (Tuple tuple: tupleList) {    
    tupleSet.add(tuple);    
}  

// now all of your tuples are unique  
for (Tuple tuple: tupleSet) {    
    System.out.println("tuple: " + tuple);  
}

如何使用java编程删除微阵列数据中的冗余元组？

1 个答案: