Web数据提取/屏幕抓取(开源)

时间:2014-11-29 21:29:23

标签: web data-extraction

我需要使用屏幕抓取或Web提取框架使用代码来完成以下需要。

  1. 我去了一个网页。
  2. 输入值以搜索实体。
  3. 显示结果后,需要捕获它们并将其作为输出返回。
  4. 有人可以建议任何好的开源Web提取工具(他们已经使用过)来允许这种数据提取(搜索)。

    非常感谢任何帮助/指示。

3 个答案:

答案 0 :(得分:0)

Selenium可能正是您要找的。虽然您当然可以编写HTTP请求并以您正在使用的任何语言自己解析响应。

答案 1 :(得分:0)

如果您正在寻找适用于任何网站的解决方案,那么这是一个难题。需求具体包括:找到一个搜索框,识别每个单独的结果,分离结果的字段,以及按顺序访问返回的所有结果页面。为此,你需要ScreenSlicer之类的东西(免责声明:我做了这个项目)。

但是,如果您只想要一种方法向特定网站提交查询并获得生成的HTML,我建议您调查OpenSearch标准。网站运营商实施OpenSearch,然后消费者获得程序化访问权限。例如,Firefox的一个消费者 - 见:Creating OpenSearch plugins for Firefox。请记住(很遗憾)很少有网站运营商实现了标准中允许的所有功能(例如分页结果,获取Atom格式化结果等)。

答案 2 :(得分:0)

XtractData是PPTS的新成员,我们专注于从各种公共领域提取数据,使其易于访问,并使用户可以满足您的所有数据需求。