UIMA Ruta输入类型 - html

时间:2016-03-02 05:52:58

标签: uima ruta

我有pdf和word文件需要用作Ruta的输入。我可以将它们转换为文本文件,但如果我这样做,会丢失所有表格和格式。无论如何我可以使用它们而不会丢失任何信息吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

您需要一个能够将pdf(/ doc / docx)转换为html的附加程序。主要有两种不同类型的PDF转换器:那些使用绝对位置生成漂亮的html,以及那些仅依赖于html元素和css的转换器。对于处理表,我推荐后者。我个人使用商业解决方案,但也有很多优秀的开源软件,例如pdf2htmlEX

如果您有html,那么您可以应用HtmlAnnotator和HtmlConverter来获取带有html标签注释的纯文本,如UIMA Ruta documentation

中所述