我只是尝试使用readseg从抓取中转储我的片段。如果我只有一个文件夹命令
bin/nutch readseg -dump crawl/segments/* dumpFolder
有效,但如果我有多个段文件夹,则会失败。有什么想法吗?
答案 0 :(得分:1)
你应该给段的路径直到段dir(带有时间戳的那个)。如果你想读取segments / dir中的所有段,你可以有一个包装类,在那里你可以列出段dir中的内容并从那里调用readseg。
答案 1 :(得分:1)
或者,这是您可以尝试的内容
首先合并所有细分:
bin/nutch mergesegs crawl/merged crawl/segments/*
然后转储合并的段
bin/nutch readseg -dump crawl/merged/* dumpedContent
答案 2 :(得分:0)
从序列文件中读取段内容并在文件上创建单个文件:
此命令通过组合int dimeter = Math.min(getWidth(), getHeight());
int x = (getWidth() - dimeter) / 2;
int y = (getHeight() - dimeter) / 2;
for (int angle = 0; angle < 360; angle++) {
float progress = (float) angle / 360;
System.out.println(progress);
Color color = blendColors(fractions, colors, progress);
g2d.setColor(color);
g2d.fillArc(x, y, dimeter, dimeter, angle + 90, 2);
}
mergedseg
segments/*
此命令应该在nutch mergesegs mergedseg -dir segments/
content_dump
备注
- 在1.10版中测试
nutch dump -segment mergedseg -outputDir content_dump
似乎有点棘手。当我给出段的路径时,它没有转储。在上面的示例中,nutch dump
是段目录的父目录。- 您还可以转储特定的mimeTypes。查看
的帮助mergedseg