NUTCH不会抓取特定网站

时间:2014-06-27 12:41:56

标签: nutch web-crawler

我使用Apache NUTCH 2.2.1版来抓取一些网站。除了一个http://eur-lex.europa.eu/homepage.html网站的网站外,一切正常。

我尝试使用Apache NUTCH 1.8版,我有相同的行为,没有任何内容。 它获取并解析入口页面,但之后就好像它无法提取其链接。

我总是看到以下内容:

------------------------------
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread4, activeThreads=3
-finishing thread FetcherThread3, activeThreads=2
-finishing thread FetcherThread2, activeThreads=1
0/1 spinwaiting/active, 0 pages, 0 errors, 0.0 0 pages/s, 0 0 kb/s, 0 URLs in 1 queues
-finishing thread FetcherThread0, activeThreads=0

-----------------

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

这可能是因为该网站的robots.txt文件限制了您的抓取工具对该网站的访问权限。

默认情况下,nutch会检查位于http://yourhostname.com/robots.txt的robots.txt文件,如果不允许抓取该网站,则无法获取任何网页。