Nutch:输入url被nutch parsechecker修改

时间:2015-10-22 12:37:31

标签: nutch

我使用v 1.0 Nutch parsechecker 命令来解析以下URL http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267

但是在运行parsechecker时我会得到以下结果 "bin/nutch parsechecker -dumpText http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267" [1] 8956 $ fetching: http://www.doctorslounge.com/forums/viewtopic.php?f=7 Fetch failed with protocol status: notfound(14), lastModified=0:http://www.doctorslounge.com/forums/viewtopic.php?f=7
不知怎的,荷兰人正在自动修改我的输入网址 http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267

http://www.doctorslounge.com/forums/viewtopic.php?f=7
任何人都可以帮助我规避这个问题。感谢

P.S - 它获取同一域的其他网址 input- http://www.doctorslounge.com/index.php/articles/page/51032完美无缺

1 个答案:

答案 0 :(得分:1)

这似乎是特定网站的内部问题。尝试运行wget http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267时会发生同样的事情。

试试这个:

bin/nutch parsechecker -dumpText "http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267"

也就是说,你需要引用(或转义)&。

使用nutch解析此页面时遇到的另一个问题是该网站的robots.txt文件禁止它:

User-agent: *
...
Disallow: /forums/viewtopic.php