从荷兰转储所有细分

时间:2011-11-01 15:10:47

标签: apache nutch

我只是尝试使用readseg从抓取中转储我的片段。如果我只有一个文件夹命令

bin/nutch readseg -dump crawl/segments/* dumpFolder 

有效,但如果我有多个段文件夹,则会失败。有什么想法吗?

3 个答案:

答案 0 :(得分:1)

你应该给段的路径直到段dir(带有时间戳的那个)。如果你想读取segments / dir中的所有段,你可以有一个包装类,在那里你可以列出段dir中的内容并从那里调用readseg。

答案 1 :(得分:1)

或者,这是您可以尝试的内容

首先合并所有细分:

bin/nutch mergesegs crawl/merged crawl/segments/*

然后转储合并的段

bin/nutch readseg -dump crawl/merged/* dumpedContent

答案 2 :(得分:0)

从序列文件中读取段内容并在文件上创建单个文件:

1。合并细分

此命令通过组合int dimeter = Math.min(getWidth(), getHeight()); int x = (getWidth() - dimeter) / 2; int y = (getHeight() - dimeter) / 2; for (int angle = 0; angle < 360; angle++) { float progress = (float) angle / 360; System.out.println(progress); Color color = blendColors(fractions, colors, progress); g2d.setColor(color); g2d.fillArc(x, y, dimeter, dimeter, angle + 90, 2); }

中的所有段来创建mergedseg
segments/*

2。转储合并的段

此命令应该在nutch mergesegs mergedseg -dir segments/

下创建文件
content_dump
  

备注

     
      
  • 在1.10版中测试
  •   
  • nutch dump -segment mergedseg -outputDir content_dump 似乎有点棘手。当我给出段的路径时,它没有转储。在上面的示例中,nutch dump是段目录的父目录。
  •   
  • 您还可以转储特定的mimeTypes。查看mergedseg
  • 的帮助