将ALTO XML转换为格式化的PDF / RTF / TXT?

时间:2015-09-25 16:48:36

标签: java xml pdf xml-parsing file-conversion

我希望将大量ALTO格式的XML文档批量转换为Windows中的各种格式,至少txt,如果可能的话rtf,pdf也很方便。

ALTO是图书馆和档案馆使用的xml标准,用于保存元数据/格式/字体/布局识别文本,以便在PDF图像中进行重建。

我只有大型档案的XML文件,我想将其转换为文本挖掘。我使用的软件需要干净的文本或rtf文件,因此将xml转换为纯文本是一种目标。因为ALTO是标准,所以转换应该是可能的,不是吗?

奖励是将元数据嵌入pdf或将其转换为LaTex等书目格式文件的能力。这可能是一个单独的计划。

我很感激任何想法,

感谢。

1 个答案:

答案 0 :(得分:0)

为了从ALTO xml中获取纯文本,您可以尝试在Java中实现这个(hacky)Python脚本中使用的简单方法:https://github.com/cneud/alto-ocr-text

我目前还没有意识到直接转换为PDF或LaTeX,尽管您可以使用样式表来实现这一点,具体取决于您的ALTO文件的确切外观。