需要屏幕抓取浏览器而不是网页

时间:2015-10-20 21:49:38

标签: screen-scraping

我有一个网页需要报废才能找到某些文字。问题是它不是我想要实现的网络抓取。该网站由一个单独的流程打开。我是专门谈论一个网页,但实际上,它更像是一个通用的屏幕报废问题。从概念上讲,这更像是我正在废弃浏览器而不是页面本身。是否有程序可以扫描任何打开的进程并查找和匹配文本?换句话说,它就像是从浏览器的内置ctrl + f find函数中获得一个单独的程序。我只需要一个简单的实用程序来告诉我给定的文本是否以布尔类型的方式出现。我意识到这是一个非常广泛的问题,但我一直无法找到任何相关信息。也许我不太清楚如何在谷歌搜索中表达它,因为我的研究一直是空洞的。

1 个答案:

答案 0 :(得分:0)

如果您已经了解了网页的结构,例如它始终是Google搜索结果,或者始终是亚马逊产品,那么您可能会看到Selenium或其中一个Chrome屏幕抓取插件。

如果您想在不事先了解格式的情况下从任何页面获取数据,我就不知道如何。