我希望将大量ALTO格式的XML文档批量转换为Windows中的各种格式,至少txt,如果可能的话rtf,pdf也很方便。
ALTO是图书馆和档案馆使用的xml标准,用于保存元数据/格式/字体/布局识别文本,以便在PDF图像中进行重建。
我只有大型档案的XML文件,我想将其转换为文本挖掘。我使用的软件需要干净的文本或rtf文件,因此将xml转换为纯文本是一种目标。因为ALTO是标准,所以转换应该是可能的,不是吗?
奖励是将元数据嵌入pdf或将其转换为LaTex等书目格式文件的能力。这可能是一个单独的计划。
我很感激任何想法,
感谢。
答案 0 :(得分:0)
为了从ALTO xml中获取纯文本,您可以尝试在Java中实现这个(hacky)Python脚本中使用的简单方法:https://github.com/cneud/alto-ocr-text。
我目前还没有意识到直接转换为PDF或LaTeX,尽管您可以使用样式表来实现这一点,具体取决于您的ALTO文件的确切外观。