应用错误收集

我正在寻找以云或SDK格式提供PDF到HTML和OCR服务的解决方案。在我搜索之后，我发现互联网上有很多服务。我试了一些，我有点想法。我想知道，如果你们有人使用这样的服务。

我最关心的是拥有一个自动化结构，可以在信息提取中使用HTML输出。我想像表一样有结构化的数据输出。（大多数服务提供带有字符格式的HTML输出（每个字符的CSS / HTML标记）或-paragraph格式（每行的CSS / HTML）。

我到目前为止检查过：

Abbyy Cloud SDK（他们没有PDF-to-HTML服务，但PDF-to-XML可以转换为支持XSLT的HTML（可能）。还有带文本输出的OCR服务非常好）
cloudconvert.org（他们提供与基于poppler-Xpdf3.0的Ubuntu pdftohtml命令相同的结果）
pdftohtml commamd（在Ubuntu上测试） - 我得到了一个带有＆lt;的结果。 p>
aspose.PDF（他们在云端没有PDF到HTML服务，但他们与GDrive，Dropbox和亚马逊s3有很好的集成。
PDFTron的PdfNET：我得到的结果是复杂的CSS和HTML结构，每个字符几乎都有一个标签。

我的问题是，如果您知道任何其他值得尝试的服务并获取用于数据提取的结构HTML输出。

提前致谢。