在客户端浏览器中使用Javascript进行刮擦

时间:2013-06-23 18:29:23

标签: java javascript ajax web-scraping screen-scraping

使用PHP或Java抓取网站很容易实现,但我的问题是,如果我想让客户端计算机刮掉,如果我可以使用javascript而不是服务器端。

背景是网站可以阻止我的服务器或服务器场,但是如果我让用户计算机刮掉然后将这些信息发布到我的服务器,我们就会避免服务器的阻塞。

  1. 我们可以使用javascript抓取网站并使用CSS选择器或正则表达式来解析HTML以提取某些信息吗?
  2. 我们能够保护我们在javacript中使用的代码,还是我们的抓取算法必须是人类可读的?
  3. 如果我们然后通过AJAX将结果发布到我们的服务器,我们如何确保它是我们的脚本而不是恶意用户操纵数据?
  4. 是否有一个很好的框架来完成这个或者我应该继续服务器端抓取?

0 个答案:

没有答案