我有关于拆分pdf文件的问题。基本上我有一个pdf文件集合,我想根据段落分割哪些文件。所以pdf文件的每个段落都是一个文件。如果你可以帮助我,我会很感激,最好是用Python,但如果不可能,任何语言都可以。
答案 0 :(得分:1)
您可以使用 pdftotext 进行上述操作,将其包装在python子进程中。或者,您可以使用其他已经隐式执行此操作的库,例如 textract 。这是一个快速示例,注意:我使用4个空格作为分隔符将文本转换为段落列表,您可能希望使用不同的技术。
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)