我有一个包含n列和多行的文件
Col 1 col2 col3 .......col n
我想读一次并写几个(比如说m)输出按几个键列对行进行分组。假设必须产生3个输出:
输出1:
groupingKeys[0]={1,2) //group the records on col 1 and 2
输出2:
groupingKeys[1]={1,4,5} //group the records on col 1 4 5
输出3
groupingKeys[2]={2,3} //group on col 2,3
在主线程中,我逐行读取输入文件。对于每条读取线,我想在m个不同的线程中处理读取线。所以基本上我想要那些电话
map[0].process(data,groupingKeys[0]);
map[1].process(data,groupingKeys[1]);
map[2].process(data,groupingKeys[2]);
应该在3个不同的线程中运行,并且3个线程中的每一个都应该在主线程读取该行之后继续。
我可以使用
的第i个线程的run方法创建m个不同的线程map[i].process(data,groupingKeys[i]);
但是这3个线程只应在读取该行的主线程中继续进行,以便它们看到data[]
的正确值。我怎样才能做到这一点?
Main thread thread-0 thread-1 thread-2 running waiting waiting waiting waiting running running running running waiting waiting waiting
在每个步骤中读取并处理一行 通过处理,我的意思是为每个分组键完成类似于sql groupby的操作 以下是上面提到的示例代码。
public void writeMultipleGroupedOutputs(String inputfile,int groupingKeys[][])
{
Mymap<key,value>[] mapArr= new Mymap<key,value>[k]; //k maps to group records in k ways as per k grouping keys
String line;
while((line = br.readLine()) != null) {
String[] data=line.split(regex); **//one line is read in main thread**
for(int i=0;i<m;i++)
map[i].process(data,groupingKeys[i]); **//process in m different ways.How to make this happen in m independent threads?**
}
class Mymap extends HashMap<key,value> {
void process(String[] data,int[] keyIndexes)
{
//extract key from key indexes
//extract value from value indexes
put(key,value);
}
@Override
public Value put(Key k, Value v) {
if (containsKey(k)) {
oldval=get(k);
put(k,oldval.aggregate(v)); //put sum of old and new
return oldval;
}else{
put(k,v);
return null;
}
}
}
}
很抱歉,如果我没有说清楚我的意思。简单来说,我想要map [i] .process(data,groupingKeys [i]);发生在单独的(第i个线程)
a b 5
a b 10
a c 15
so if i want to group by {1} and {1,2}
read line map1 map2
a b 5 [a--> b,5] [a,b ->5]
a b 10 [a-> b 15] [a,b->15]
a c 15 [a->b 30] [a,b->15 a,c->15]
编辑: 问题与我如何处理或分组逻辑无关,但它是:在读取每一行之后,我想在不同的线程中对读取行做一些事情。
答案 0 :(得分:0)
如果我理解正确,您希望等待处理直到读取所有文件。如果是,则根据详细信息,您可能需要查看CyclicBarrier
或CountDownLatch