我正在学习nutch并试图按照这个tutorial 进行爬行。我正在使用bash shell创建一个ubuntu机器。但是当我运行脚本时,执行会发生,但之后没有任何反应,
InjectorJob: starting at 2014-03-23 09:28:50
InjectorJob: Injecting urlDir: urls/seed.txt
我等了好几个小时,我尝试用sudo
运行同样的程序。出现同样的问题。我也试过了教程中给出的默认网址。什么可能是错误?
答案 0 :(得分:1)
缺少的是我没有在nutch-site.xml中添加代理和端口详细信息,因为我通过代理访问。为Ant或JVM设置相同是不够的