空Nutch爬行列表

时间:2010-12-18 19:51:29

标签: java eclipse nutch

我正在尝试使用Eclipse中的Nutch进行爬行。

我正在使用名为urls的文件,它包含

http://www.google.com/

但是,当我运行项目时,Generator类告诉我:

“选择0条记录进行提取,退出”

我该如何解决这个问题?

我遵循了这些文件:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:1)

我最近遇到了这个问题,发现大多数回复涉及(regex | crawl)-urlfiters.txt。要检查的另一件事是你的' -topN'设置。这需要足够大,以便生成器通过所有过滤器。

我希望这会有所帮助。

答案 1 :(得分:0)

最有可能是你的regex-urlfilter.xml。尝试使用它,看看它是否解决了问题

- ^(文件| FTP |的mailto):

- (GIF |。GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | CSS | RSS |坐| EPS | WMF |拉链| PPT | MPG | XLS | GZ |转速| TGZ | MOV | MOV | EXE | JPEG | JPEG | BMP | BMP)$

- *(/ [^ /] +)/ [^ /] + \ 1 / [^ /] + \ 1 /

+