NUTCH可以用来从电子商务网站获取数据吗?

时间:2014-06-17 13:09:23

标签: database web-scraping nutch web-crawler

我想从网站上获取数据。 示例我想要ebay中不同商品的价格。 我想将这些产品的价格存储在我的数据库中。 NUTCH会对你有帮助吗? 如果不是那么我应该选择什么刮刀/爬行?

2 个答案:

答案 0 :(得分:1)

Nutch所做的是抓取一些网站并为其网页编制索引。

您需要的是一个刮刀,用于从某些网页中提取特定信息。我不知道有哪些工具可用于抓取,但使用Perl或Python等脚本语言编写自己的工具应该非常容易。

但是,如果您想使用Nutch进行抓取,您可以构建自己的插件来提取其他数据。您可以在此链接上找到有关插件的更多信息:https://wiki.apache.org/nutch/PluginCentral

您应该注意到抓取并非总是合法的,某些网站明确禁止从其网页上自动下载内容,您应该在尝试抓取该网站之前检查该网站的使用条款。

答案 1 :(得分:1)

尝试scrapy它是一个非常强大且记录良好的抓取框架。 经验丰富的程序员需要几个小时才能废弃电子商务数据。