从PDF提取文本会产生一个长字符串(python)

时间:2018-11-16 06:05:31

标签: python pdf pypdf2

我目前具有以下功能

def readFile(fileName):
    text = ""

    pdfFileObj = open(fileName, 'rt')

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    num_pages = pdfReader.numPages

    count = 0
    while count < num_pages:
            pageObj = pdfReader.getPage(count)
            text += pageObj.extractText()
            count += 1

    pdfFileObj.close()
    return text

但是对于大多数我尝试过的PDF,它返回一个长字符串,单词或句子之间没有任何空格。我是在做错什么还是有办法拆分单词?

0 个答案:

没有答案