我目前具有以下功能
def readFile(fileName):
text = ""
pdfFileObj = open(fileName, 'rt')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
count = 0
while count < num_pages:
pageObj = pdfReader.getPage(count)
text += pageObj.extractText()
count += 1
pdfFileObj.close()
return text
但是对于大多数我尝试过的PDF,它返回一个长字符串,单词或句子之间没有任何空格。我是在做错什么还是有办法拆分单词?