Nutch 2.3无法解析通过parsechecker正确解析的URL

时间:2015-02-05 14:46:31

标签: apache nutch apache-tika html-parser

我正在试验Apache Nutch 2.3。

当我运行URL http://comptuergodzilla.blogspot.com的parse命令时,Nutch正确解析内容。我的意思是我分别在olp列系列中获得了所有的外链和内容。

但是,当我为URL http://goal.com/en-india做同样的事情时,它无法解析网站的外链和内容。

让我抓狂的是在为URL http://www.goal.com/en-india运行parsechecker命令后,我得到了所有已解析的内容和链接。

关于上述问题,我的问题是:

 i. Why parse command is not working? It should work if parsechecker is parsing the URL correctly.
 ii. Do I have to build the separate HTMLParser plugin for achieving above.

0 个答案:

没有答案