我正在做一些数据抓取,有三种类型的文件,我从中抓取数据。
1- HTML
2- PDF
3- Excel(xls)
对于HTML我很舒服,我正在使用HTML Agility。
对于PDF和Excel,我需要任何人的建议。
提前致谢。
答案 0 :(得分:4)
关于Excel。如果您在MS环境中,则可以执行Office Automation或使用OLEDB。在Java环境中查看Apache POI。
编辑:关于Java中的PDF,请尝试Apache PDFBox。也可以使用IKVM在.NET中工作
答案 1 :(得分:1)
我可以推荐Cogniview's PDF2XL,这是一种价格相当便宜的商业产品,可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。
答案 2 :(得分:0)
HTML Agility是一个库。它很好用。但是,为什么您需要单独的工具来进行不同的数据提取?使用Automation Anywhere从任何来源提取数据。据我所知,它适用于您指定的所有三个来源。 谷歌吧。
答案 3 :(得分:0)
您可以使用UiPath来实现此目的。它可以抓取100%准确的PDF,Excel,HTML,Java,Windows,.NET,WPF,遗产。也适用于基于虚拟化的环境,但仅通过OCR抓取。
可以从代码(SDK)中使用,但您也可以使用UiPath Studio创建可视化自动化(工作流程)。 这是web data extraction
的教程注意:我在UiPath工作,所以我知道它可以完成这项工作。您还应该尝试其他可视化自动化工具,如Automation Anywhere,WinAutomation,Jacada,并排使用它们并选择最适合您的工具。