应用错误收集

使用Java开发自动Web爬虫

时间：2014-01-20 08:42:12

标签： web-crawler

您好我想抓取多个电子商务网站，并将所有可用的产品抓取并显示在我的网站上。我已经使用Java开发了爬虫，但我们必须通过提供URL和HTML标记详细信息来手动抓取网站，并通过连接URL并解析URL并在相应的HTML标记内获取产品来抓取网站。我正在使用JSoup 例如doc.getElementsByTagName（“CRAWL”）;将产品放在名为“CRAWL”的标签内

但我想完全自动化抓取。如果我在我的网站上搜索产品，那么相应的产品应该自动从电子商务网站抓取。如果我想抓取佳能相机，爬虫应该自动进行..

是否可以自动化抓取工具？如果是，请帮我解决该怎么做。

1 个答案:

答案 0 :(得分：1)

使用产品API可能比抓取网站和收集内容更好。

抓取更难和特定于网站
可能不允许抓取

其中一些API怎么样？

Amazon Product Advertising API

eBay Shopping API

Semantics3

Factual API

（注意：我个人没有使用它们。）