从PDF和Excel中进行数据刮擦

时间:2010-06-30 09:02:24

标签: excel pdf screen-scraping

我正在做一些数据抓取,有三种类型的文件,我从中抓取数据。

 1- HTML
 2- PDF
 3- Excel(xls)

对于HTML我很舒服,我正在使用HTML Agility。

对于PDF和Excel,我需要任何人的建议。

提前致谢。

4 个答案:

答案 0 :(得分:4)

关于Excel。如果您在MS环境中,则可以执行Office Automation或使用OLEDB。在Java环境中查看Apache POI。

编辑:关于Java中的PDF,请尝试Apache PDFBox。也可以使用IKVM在.NET中工作

答案 1 :(得分:1)

我可以推荐Cogniview's PDF2XL,这是一种价格相当便宜的商业产品,可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。

答案 2 :(得分:0)

HTML Agility是一个库。它很好用。但是,为什么您需要单独的工具来进行不同的数据提取?使用Automation Anywhere从任何来源提取数据。据我所知,它适用于您指定的所有三个来源。 谷歌吧。

答案 3 :(得分:0)

您可以使用UiPath来实现此目的。它可以抓取100%准确的PDF,Excel,HTML,Java,Windows,.NET,WPF,遗产。也适用于基于虚拟化的环境,但仅通过OCR抓取。

可以从代码(SDK)中使用,但您也可以使用UiPath Studio创建可视化自动化(工作流程)。 这是web data extraction

的教程

注意:我在UiPath工作,所以我知道它可以完成这项工作。您还应该尝试其他可视化自动化工具,如Automation Anywhere,WinAutomation,Jacada,并排使用它们并选择最适合您的工具。