用于信息提取的PDF到HTML和OCR解决方案

时间:2013-09-20 14:58:11

标签: pdf ocr text-extraction html-content-extraction pdf-to-html

我正在寻找以云或SDK格式提供PDF到HTML和OCR服务的解决方案。在我搜索之后,我发现互联网上有很多服务。我试了一些,我有点想法。我想知道,如果你们有人使用这样的服务。

我最关心的是拥有一个自动化结构,可以在信息提取中使用HTML输出。我想像表一样有结构化的数据输出。 (大多数服务提供带有字符格式的HTML输出(每个字符的CSS / HTML标记)或-paragraph格式(每行的CSS / HTML)。

我到目前为止检查过:

  • Abbyy Cloud SDK(他们没有PDF-to-HTML服务,但PDF-to-XML可以转换为支持XSLT的HTML(可能)。还有带文本输出的OCR服务非常好)
  • cloudconvert.org(他们提供与基于poppler-Xpdf3.0的Ubuntu pdftohtml命令相同的结果)
  • pdftohtml commamd(在Ubuntu上测试) - 我得到了一个带有<的结果。 p>
  • aspose.PDF(他们在云端没有PDF到HTML服务,但他们与GDrive,Dropbox和亚马逊s3有很好的集成。
  • PDFTron的PdfNET:我得到的结果是复杂的CSS和HTML结构,每个字符几乎都有一个标签。

我的问题是,如果您知道任何其他值得尝试的服务并获取用于数据提取的结构HTML输出。

提前致谢。

0 个答案:

没有答案