如何从PDF中抓取信息?

时间:2011-12-16 22:28:44

标签: pdf web-scraping

我正在使用Mozenda(Mozenda.com)来搜索在线数据库,但有些数据是PDF文件。 Mozenda似乎不支持抓取这些文件,因此我正在寻找另一种解决方案。

有两个问题......

  1. 从a中选择URL的适当XPath语法是什么 链接?目前尚不清楚如何使用Mozenda和PDF网址进行此操作 是实施第三方解决方案所必需的。

  2. 什么是将大量PDF在线转换为的好工具 HTML,或者更好的还是刮掉它们?

  3. 任何有用的建议都非常感谢。我很乐意澄清......只是问。

2 个答案:

答案 0 :(得分:1)

我认识到这是一个迟来的答案,但是Mozenda添加了将PDF转换为HTML并从中获取的能力。这很简单。

https://www.mozenda.com/faqs

答案 1 :(得分:0)

使用mozenda本身就可以创建xpath。创建任何操作>精简操作>放。在Xpath中,从CaptureDefination中获取您想要的任何数据。