我是新的apache风暴,我想用暴风来获得文件的相似性。我希望获得文件夹中所有文件的余弦" A"文件夹中的所有文件" B"。你能帮助我展示获得结果的方法吗? 非常感谢。
答案 0 :(得分:0)
我不明白你所说的所有文件的余弦是什么意思,但总的来说, 您可以将每个文件夹视为'流'。你可以让readout文件中的spoutA发出文件夹,它们将folderB中的文件发送到两个元组流中(我假设两个文件夹之间存在一些差异,如编码,格式化等)。然后您的处理螺栓可以订阅'到那些溪流。例如,
bolt.fieldsGrouping(spoutA, streamname, new Fields("field_in_stream"));
bolt.fieldsGrouping(spoutB, streamname, new Fields("field_in_stream"));
另一方面,如果你想从不同的文件夹中读取同一个喷口的两个不同实例,那么
像这样,也许
public class MySpout extends BaseRichSpout {
public void open(Map conf, TopologyContext context,
SpoutOutputCollector collector) {
System.out.println("Spout Index = " + context.getThisTaskId());
}
}