如何使用java编程删除微阵列数据中的冗余元组?

时间:2010-01-12 04:39:03

标签: java weka redundancy

在WEKA-用于MICROARRAY DATA的数据挖掘软件中,如何从现有数据集中删除冗余元组?删除冗余的代码应该在JAVA中。

,即数据集包含诸如

之类的数据
H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0

这里的元组1,4,5是多余的。

代码应返回以下REDUNDANCY REMOVED数据集......

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0

1 个答案:

答案 0 :(得分:2)

您可以使用其中一个实现Set的类,例如java.util.HashSet

您可以将数据集加载到Set中,然后通过Set.toArray()方法转换为数组或通过遍历集合来提取它们。

Set<Tuple> tupleSet = new HashSet<Tuple>();

      
for (Tuple tuple: tupleList) {    
    tupleSet.add(tuple);    
}  

// now all of your tuples are unique  
for (Tuple tuple: tupleSet) {    
    System.out.println("tuple: " + tuple);  
}