我正在试验Apache Nutch 2.3。
当我运行URL http://comptuergodzilla.blogspot.com的parse命令时,Nutch正确解析内容。我的意思是我分别在ol
和p
列系列中获得了所有的外链和内容。
但是,当我为URL http://goal.com/en-india做同样的事情时,它无法解析网站的外链和内容。
让我抓狂的是在为URL http://www.goal.com/en-india运行parsechecker命令后,我得到了所有已解析的内容和链接。
关于上述问题,我的问题是:
i. Why parse command is not working? It should work if parsechecker is parsing the URL correctly.
ii. Do I have to build the separate HTMLParser plugin for achieving above.