我正在使用Mozenda(Mozenda.com)来搜索在线数据库,但有些数据是PDF文件。 Mozenda似乎不支持抓取这些文件,因此我正在寻找另一种解决方案。
有两个问题......
从a中选择URL的适当XPath语法是什么 链接?目前尚不清楚如何使用Mozenda和PDF网址进行此操作 是实施第三方解决方案所必需的。
什么是将大量PDF在线转换为的好工具 HTML,或者更好的还是刮掉它们?
任何有用的建议都非常感谢。我很乐意澄清......只是问。
答案 0 :(得分:1)
我认识到这是一个迟来的答案,但是Mozenda添加了将PDF转换为HTML并从中获取的能力。这很简单。
答案 1 :(得分:0)
使用mozenda本身就可以创建xpath。创建任何操作>精简操作>放。在Xpath中,从CaptureDefination中获取您想要的任何数据。