Question

我使用v 1.0 Nutch parsechecker 命令来解析以下URL http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267

但是在运行parsechecker时我会得到以下结果 "bin/nutch parsechecker -dumpText http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267" [1] 8956 $ fetching: http://www.doctorslounge.com/forums/viewtopic.php?f=7 Fetch failed with protocol status: notfound(14), lastModified=0:http://www.doctorslounge.com/forums/viewtopic.php?f=7
不知怎的，荷兰人正在自动修改我的输入网址 http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267
至
http://www.doctorslounge.com/forums/viewtopic.php?f=7
任何人都可以帮助我规避这个问题。感谢

P.S - 它获取同一域的其他网址 input- http://www.doctorslounge.com/index.php/articles/page/51032完美无缺

Answer 1

~~这似乎是特定网站的内部问题。尝试运行wget http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267时会发生同样的事情。~~

试试这个：

bin/nutch parsechecker -dumpText "http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267"

也就是说，你需要引用（或转义）＆amp;。

使用nutch解析此页面时遇到的另一个问题是该网站的robots.txt文件禁止它：

User-agent: *
...
Disallow: /forums/viewtopic.php

Nutch：输入url被nutch parsechecker修改

1 个答案: