使用Java开发自动Web爬虫

时间:2014-01-20 08:42:12

标签: web-crawler

您好我想抓取多个电子商务网站,并将所有可用的产品抓取并显示在我的网站上。我已经使用Java开发了爬虫,但我们必须通过提供URL和HTML标记详细信息来手动抓取网站,并通过连接URL并解析URL并在相应的HTML标记内获取产品来抓取网站。我正在使用JSoup 例如doc.getElementsByTagName(“CRAWL”);将产品放在名为“CRAWL”的标签内

但我想完全自动化抓取。如果我在我的网站上搜索产品,那么相应的产品应该自动从电子商务网站抓取。如果我想抓取佳能相机,爬虫应该自动进行..

是否可以自动化抓取工具?如果是,请帮我解决该怎么做。

1 个答案:

答案 0 :(得分:1)

使用产品API可能比抓取网站和收集内容更好。

  1. 抓取更难和特定于网站

  2. 可能不允许抓取

  3. 其中一些API怎么样?

    Amazon Product Advertising API

    eBay Shopping API

    Semantics3

    Factual API

    (注意:我个人没有使用它们。)