刮刮和非API交互

时间:2015-01-20 14:56:37

标签: api web-scraping

我正在考虑建立一个应用程序来检查各个商店的库存水平。有些商店没有公开此信息的API。

我正在考虑为每个网站建立一个刮刀。

你认为这会有效吗?我可以只构建一个脚本来检查所有网站吗?例如,这是来自一个站点的标记:

<div class = "stock status6">
  <b> In stock </b>
</div>

所以我的脚本需要解析它来提取股票信息。

根据我的理解,这种技术的问题在于,如果网站更改了标记,那么我的刮刀可能会停止工作。

如果没有API,我怎样才能获得使用API​​的好处? Javascript可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

  

我考虑为每个网站建立一个刮刀。

当您无法访问API时,这是您唯一的选择。

  

你认为这会有效吗?我可以只构建一个脚本来检查所有网站吗?

刮痧是解决此类问题的常用方法。如何构建脚本是一个详细信息,但每个站点可能需要以不同的方式进行解析。

  

根据我的理解,这种技术的问题在于,如果网站更改了标记,那么我的刮刀可能会停止工作。

是的,您需要准备好在页面更改时更新脚本,或者如果数据不可用,则从其他来源获取数据。

  

如果没有API,我怎样才能获得使用API​​的好处? Javascript可以帮忙吗?

刮痧可能难以维护,并且很少像API一样可靠。

由于Same-origin policy,客户端Javascript无法用于抓取数据。如果从服务器运行,Javascript可用于构建一个scraper。