通过屏幕抓取从浏览器获取数据

时间:2012-11-14 18:38:51

标签: browser screen-scraping

我已经通过几个相关的问题,但他们没有包含我正在寻找的答案。所以,这是我的问题:

我的工作场所有几个Web应用程序,这些应用程序是使用不同的框架编写的,作者很早就要求进行功能更新。因此,我必须通过相同的艰苦行动序列来获取,这相当于每天几千字节的文件大小。

我尝试解析页面源代码,但作者的编程技术到处都是。有些人甚至故意模糊代码,不让数据显示为文本,因为他们编写的代码是公司资产,所以没有理由这样做。长话短说,我意识到如果我可以复制和粘贴这些页面的文本内容,我可以比解析页面源来获取文本更容易处理这些数据(这有时是完全不可能的)

所以,我现在正在寻找一个浏览器插件(在Windows或Linux环境中)或Windows或Linux上的等效基于文本的工具,它们将加载这些页面并将文本保存到文件中。调用

尽管我努力了,但我还是空手而归。

我不想利用第三方屏幕抓取网站的服务,因为这些数据是公司保密的,外部各方无法访问。一切都必须发生在客户端,因为我无法访问运行这些应用程序的服务器(主要是Windows前端的IIS和后端的oracle数据库。中间层,正如我之前解释的那样是任何人的狂野猜测,从本机oracle应用程序到weblogic到tomcat,再到一些内部开发的java / javascript东西。

感谢您提前获得所有帮助

3 个答案:

答案 0 :(得分:1)

在搜索了一年多的答案之后,我开始意识到,只要我使用windows,它就是现代版本,autohotkey就是我的救星。

我打开网页,最大化它,放置我的光标(mousemove,x,y)然后左键单击(鼠标点击,L)然后发送ctrl-A,然后发送ctrl-C。

瞧!瞧!一切都在剪贴板中。然后我激活我的unix会话(winactivate PuTTY)并发送相应的按键命令来启动我选择的编辑器(即vi),最后发送一个shift-Insert将剪贴板粘贴到我的文档中。然后保存并退出当然。

作为一个额外的好处,在我的文档保存之后,我可以调用我选择的脚本来解析这个文件并将我感兴趣的部分还给我。

我知道这不是防弹,但就我的目的而言,它在很大程度上有所帮助。事实上,我可以用这种方法做任何我想做的事。

答案 1 :(得分:0)

这样的事情:http://www.nirsoft.net/utils/htmlastext.html 将HTML页面转换为文本的免费软件

答案 2 :(得分:0)

任何链接,lynx或w3m都可以执行您想要的操作,它们是文本浏览器,您可以从网页转储文本,例如:

w3m -dump http://www.google.com > g.txt