服务器端的屏幕抓取

时间:2013-07-01 07:33:41

标签: web-scraping screen-scraping

我是屏幕抓取的新手。当我使用代理服务器并且当我跟踪HTTP事务时,我正在向我透露我的帖子数据。所以我的疑问/问题是,    1)它是存储在服务器端还是仅向客户端显示?    2)我们是否可以选择在屏幕抓取中加密帖子数据?    3)是否建议在银行应用程序中使用屏幕抓取? 我正在使用我从其下载的屏幕刮刀工具 http://www.screen-scraper.com/download/choose_version.php。 (企业版)

提前致谢。

3 个答案:

答案 0 :(得分:2)

我的抓取经验是,如果你没有做任何超级复杂的事情(比如登录像网上银行网站这样的安全网站等),那么Python有一些很棒的图书馆可以帮到你很多。

回答你的问题:

1)您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。

2)事实上,你做到了。 Urllib和Urllib2(内置Python库)都具有使您能够在进行POST之前加密数据的功能。至于这种加密的安全性,对于大多数应用来说,这就足够了。

3)我实际上已经在网上银行网站上进行了拼抢!我并不完全熟悉这个工具,但我建议使用与刮刀不同的东西。 Selenium是一个“网络驱动程序”,允许您模拟浏览器的使用,这意味着broswer在后台执行的任何操作都会自动处理以验证会话。我在尝试刮取银行网站时遇到的主要问题是丢失了重要的会话数据。

Selenium - https://pypi.python.org/pypi/selenium

您可能会发现有用的其他库有:urllib,urllib2和Mechanize

我希望我有所帮助!

答案 1 :(得分:1)

1)服务器端是什么意思?您的代理服务器或屏幕抓取软件?他们中的任何人都可以阅读/存储您的信息。

2)如果您通过HTTPS连接,那么您的软件应警告您有关恶意代理服务器的信息:https://security.stackexchange.com/questions/8145/does-https-prevent-man-in-the-middle-attacks-by-proxy-server

3)我不认为他们有一些他们可以阅读的记录器。但如果您担心,您可以尝试自己编写。有一些API可以使用jQuery sintax轻松阅读HTML: https://pypi.python.org/pypi/pyquery或XPath:http://net.tutsplus.com/tutorials/javascript-ajax/web-scraping-with-node-js/

答案 2 :(得分:1)

之前我曾使用过屏幕刮刀来刮取银行网站。它会像浏览器一样影响网站 - 如果网站使用加密,从屏幕抓取器到网站的连接也将是。

如果您有一个客户端页面向screen-scraper发送数据,您可能应该对其进行加密。我通常只是通过SSH建立连接。