excel - 从PDF和Excel中进行数据刮擦

时间：2010-06-30 09:02:24

标签： excel pdf screen-scraping

我正在做一些数据抓取，有三种类型的文件，我从中抓取数据。

1- HTML
2- PDF
3- Excel（xls）

对于HTML我很舒服，我正在使用HTML Agility。

对于PDF和Excel，我需要任何人的建议。

提前致谢。

答案 0 :(得分：4)

关于Excel。如果您在MS环境中，则可以执行Office Automation或使用OLEDB。在Java环境中查看Apache POI。

编辑：关于Java中的PDF，请尝试Apache PDFBox。也可以使用IKVM在.NET中工作

答案 1 :(得分：1)

我可以推荐Cogniview's PDF2XL，这是一种价格相当便宜的商业产品，可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。

答案 2 :(得分：0)

HTML Agility是一个库。它很好用。但是，为什么您需要单独的工具来进行不同的数据提取？使用Automation Anywhere从任何来源提取数据。据我所知，它适用于您指定的所有三个来源。谷歌吧。

答案 3 :(得分：0)

您可以使用UiPath来实现此目的。它可以抓取100％准确的PDF，Excel，HTML，Java，Windows，.NET，WPF，遗产。也适用于基于虚拟化的环境，但仅通过OCR抓取。

可以从代码（SDK）中使用，但您也可以使用UiPath Studio创建可视化自动化（工作流程）。这是web data extraction

的教程

注意：我在UiPath工作，所以我知道它可以完成这项工作。您还应该尝试其他可视化自动化工具，如Automation Anywhere，WinAutomation，Jacada，并排使用它们并选择最适合您的工具。