我需要使用屏幕抓取或Web提取框架使用代码来完成以下需要。
有人可以建议任何好的开源Web提取工具(他们已经使用过)来允许这种数据提取(搜索)。
非常感谢任何帮助/指示。
答案 0 :(得分:0)
Selenium可能正是您要找的。虽然您当然可以编写HTTP请求并以您正在使用的任何语言自己解析响应。
答案 1 :(得分:0)
如果您正在寻找适用于任何网站的解决方案,那么这是一个难题。需求具体包括:找到一个搜索框,识别每个单独的结果,分离结果的字段,以及按顺序访问返回的所有结果页面。为此,你需要ScreenSlicer之类的东西(免责声明:我做了这个项目)。
但是,如果您只想要一种方法向特定网站提交查询并获得生成的HTML,我建议您调查OpenSearch标准。网站运营商实施OpenSearch,然后消费者获得程序化访问权限。例如,Firefox的一个消费者 - 见:Creating OpenSearch plugins for Firefox。请记住(很遗憾)很少有网站运营商实现了标准中允许的所有功能(例如分页结果,获取Atom格式化结果等)。
答案 2 :(得分:0)
XtractData是PPTS的新成员,我们专注于从各种公共领域提取数据,使其易于访问,并使用户可以满足您的所有数据需求。