我使用v 1.0 Nutch parsechecker 命令来解析以下URL
http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267
但是在运行parsechecker时我会得到以下结果
"bin/nutch parsechecker -dumpText http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267"
[1] 8956
$ fetching: http://www.doctorslounge.com/forums/viewtopic.php?f=7
Fetch failed with protocol status: notfound(14), lastModified=0:http://www.doctorslounge.com/forums/viewtopic.php?f=7
不知怎的,荷兰人正在自动修改我的输入网址
http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267
至
http://www.doctorslounge.com/forums/viewtopic.php?f=7
任何人都可以帮助我规避这个问题。感谢
P.S - 它获取同一域的其他网址 input- http://www.doctorslounge.com/index.php/articles/page/51032完美无缺
答案 0 :(得分:1)
这似乎是特定网站的内部问题。尝试运行 wget http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267
时会发生同样的事情。
试试这个:
bin/nutch parsechecker -dumpText "http://www.doctorslounge.com/forums/viewtopic.php?f=7&t=40267"
也就是说,你需要引用(或转义)&。
使用nutch解析此页面时遇到的另一个问题是该网站的robots.txt文件禁止它:
User-agent: *
...
Disallow: /forums/viewtopic.php