我正在寻找以云或SDK格式提供PDF到HTML和OCR服务的解决方案。在我搜索之后,我发现互联网上有很多服务。我试了一些,我有点想法。我想知道,如果你们有人使用这样的服务。
我最关心的是拥有一个自动化结构,可以在信息提取中使用HTML输出。我想像表一样有结构化的数据输出。 (大多数服务提供带有字符格式的HTML输出(每个字符的CSS / HTML标记)或-paragraph格式(每行的CSS / HTML)。
我到目前为止检查过:
- Abbyy Cloud SDK(他们没有PDF-to-HTML服务,但PDF-to-XML可以转换为支持XSLT的HTML(可能)。还有带文本输出的OCR服务非常好)
- cloudconvert.org(他们提供与基于poppler-Xpdf3.0的Ubuntu pdftohtml命令相同的结果)
- pdftohtml commamd(在Ubuntu上测试) - 我得到了一个带有<的结果。 p>
- aspose.PDF(他们在云端没有PDF到HTML服务,但他们与GDrive,Dropbox和亚马逊s3有很好的集成。
- PDFTron的PdfNET:我得到的结果是复杂的CSS和HTML结构,每个字符几乎都有一个标签。
我的问题是,如果您知道任何其他值得尝试的服务并获取用于数据提取的结构HTML输出。
提前致谢。