您好我想抓取多个电子商务网站,并将所有可用的产品抓取并显示在我的网站上。我已经使用Java开发了爬虫,但我们必须通过提供URL和HTML标记详细信息来手动抓取网站,并通过连接URL并解析URL并在相应的HTML标记内获取产品来抓取网站。我正在使用JSoup 例如doc.getElementsByTagName(“CRAWL”);将产品放在名为“CRAWL”的标签内
但我想完全自动化抓取。如果我在我的网站上搜索产品,那么相应的产品应该自动从电子商务网站抓取。如果我想抓取佳能相机,爬虫应该自动进行..
是否可以自动化抓取工具?如果是,请帮我解决该怎么做。
答案 0 :(得分:1)
使用产品API可能比抓取网站和收集内容更好。
抓取更难和特定于网站
可能不允许抓取
其中一些API怎么样?
Amazon Product Advertising API
(注意:我个人没有使用它们。)