Nutch的可能性

时间:2015-05-05 07:57:01

标签: web-scraping web-crawler nutch

我是nutch的新手,正在使用nutch 1.9。现在我正在一个示例网站上做一些POC(shaadi.com)。我有几个问题,有人可以帮我解决这个问题吗?

  1. 我无法访问需要登录身份验证的网址(基于表单),不过我在httpclient-auth.xml,nutch-site.xml以及所有内容中设置了配置。

  2. 我知道nutch只会提取网站的全部内容。但是有可能只从网站页面使用nutch获取一些信息,如名字,地址等。 (我认为它更像是刮痧......这就是蟒蛇 scrapy 的作用)

  3. 提前致谢。

0 个答案:

没有答案