应用错误收集

Nutch的可能性

时间：2015-05-05 07:57:01

标签： web-scraping web-crawler nutch

我是nutch的新手，正在使用nutch 1.9。现在我正在一个示例网站上做一些POC（shaadi.com）。我有几个问题，有人可以帮我解决这个问题吗？

我无法访问需要登录身份验证的网址（基于表单），不过我在httpclient-auth.xml，nutch-site.xml以及所有内容中设置了配置。
我知道nutch只会提取网站的全部内容。但是有可能只从网站页面使用nutch获取一些信息，如名字，地址等。（我认为它更像是刮痧......这就是蟒蛇 scrapy 的作用）

提前致谢。

0 个答案:

没有答案