标签: web-scraping web-crawler nutch
我是nutch的新手,正在使用nutch 1.9。现在我正在一个示例网站上做一些POC(shaadi.com)。我有几个问题,有人可以帮我解决这个问题吗?
我无法访问需要登录身份验证的网址(基于表单),不过我在httpclient-auth.xml,nutch-site.xml以及所有内容中设置了配置。
我知道nutch只会提取网站的全部内容。但是有可能只从网站页面使用nutch获取一些信息,如名字,地址等。 (我认为它更像是刮痧......这就是蟒蛇 scrapy 的作用)
提前致谢。