基于浏览器的客户端抓取

时间:2015-07-23 07:41:05

标签: javascript php jquery web-scraping phantomjs

我想知道是否有可能通过用户的IP抓取外部(跨域)页面?

对于购物比较网站,我需要抓一个e-com网站的页面,但是来自服务器的几个请求会让我被禁止,所以我正在寻找方法进行客户端抓取 - 即请求页面从用户的IP发送到服务器进行处理。

4 个答案:

答案 0 :(得分:28)

不,由于名为Same-origin policy的安全措施,您将无法使用客户端的浏览器使用JavaScript从其他网站抓取内容。

应该没有办法绕过这个政策,这是有充分理由的。想象一下,您可以指示访问者的浏览器在任何网站上执行任何操作。这不是你想要自动发生的事情。

但是,您可以创建一个浏览器扩展来执行此操作。 JavaScript浏览器扩展可以配备比常规JavaScript更多的权限。

Adob​​e Flash具有类似的安全功能,但我想您可以使用Java(而不是JavaScript)来创建使用用户IP地址的Web抓取工具。然后,您可能不希望这样做,因为Java插件被认为是不安全的(并且加载速度慢!)并且并非所有用户都会安装它。

现在回到你的问题:

  

我需要抓一个e-com网站的页面,但服务器的几个请求会让我被禁止。

如果该网站的所有者不希望您以这种方式使用他的服务,那么您可能不应该这样做。否则,您将面临法律影响(详见here)。

如果你处于“法律的黑暗面”并且不在乎这是否违法,你可以使用像http://luminati.io/这样的东西来使用真人的IP地址。

答案 1 :(得分:3)

基本上,浏览器是为了避免这样做......

每个人首先考虑的解决方案:

jQuery/JavaScript: accessing contents of an iframe

但在大多数情况下,使用“最近的”浏览器(<10岁)

不会起作用

替代方案是:

  • 使用服务器的官方api(如果有的话)
  • 尝试查找服务器是否提供JSONP服务(祝你好运)
  • 在同一个域中,尝试跨站点脚本(如果可能,不是很道德)
  • 使用受信任的中继或代理(但这仍将使用您自己的IP)
  • 假装您是谷歌网络抓取工具(为什么不,但不是非常可靠,也不保证)
  • 使用hack在客户端本身设置中继/代理我可以考虑java或可能是flash。 (不会在大多数移动设备上运行,速度慢,而且闪存也有自己的跨站点限制)
  • 要求谷歌或其他搜索引擎获取内容(如果你滥用它,你可能会遇到搜索引擎的问题......)
  • 只需自己完成这项工作并缓存答案,这样可以卸载服务器并降低被禁止的风险。
  • 自行索引网站(您自己的网络抓取工具),然后使用您自己的索引网站。 (取决于来源变化频率) http://www.quora.com/How-can-I-build-a-web-crawler-from-scratch

[编辑]

我能想到的另一个解决方案是使用YQL服务,这种方式有点像使用搜索引擎/公共代理作为桥梁来为您检索信息。 Here is a simple example to do so简而言之,您获得跨域GET请求

答案 2 :(得分:2)

查看http://import.io,它们提供了几个抓取工具,连接器和提取器。我不太确定他们是如何绕过禁令的,但他们会以某种方式(我们现在使用他们的系统超过一年没有问题)。

答案 3 :(得分:1)

您可以使用artoo构建浏览器扩展程序。

http://medialab.github.io/artoo/chrome/

这将允许您绕过相同的orgin策略限制。这都是javascript并且在客户端。