我正在尝试使用Eclipse中的Nutch进行爬行。
我正在使用名为urls的文件,它包含
但是,当我运行项目时,Generator类告诉我:
“选择0条记录进行提取,退出”
我该如何解决这个问题?
我遵循了这些文件:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
非常感谢任何帮助。
答案 0 :(得分:1)
我最近遇到了这个问题,发现大多数回复涉及(regex | crawl)-urlfiters.txt。要检查的另一件事是你的' -topN'设置。这需要足够大,以便生成器通过所有过滤器。
我希望这会有所帮助。
答案 1 :(得分:0)
最有可能是你的regex-urlfilter.xml。尝试使用它,看看它是否解决了问题
- ^(文件| FTP |的mailto):
- (GIF |。GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | CSS | RSS |坐| EPS | WMF |拉链| PPT | MPG | XLS | GZ |转速| TGZ | MOV | MOV | EXE | JPEG | JPEG | BMP | BMP)$
- *(/ [^ /] +)/ [^ /] + \ 1 / [^ /] + \ 1 /
+