用于从Python中的文本/ PDF生成XML的最佳Python库是什么?

时间:2018-03-09 06:16:30

标签: python xml machine-learning python-textprocessing

我正在尝试使用Python将科学PDF自动化为XML。我想知道:有没有可以从文本或PDF文档生成XML的Python库?

1 个答案:

答案 0 :(得分:2)

您可以使用textract来阅读pdf文件, 有关详细信息:Extracting text from a PDF file using Python 一旦在变量中包含文本,就可以使用ElementTrees来编写格式正确的XML。