我目前正在尝试从研究论文(PDF)中读取和提取文本。我尝试将PyPDF与以下代码一起使用:
import PyPDF2
pdfFileObj = open('my_research_paper.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print("Number of pages:-"+str(pdfReader.numPages))
num = pdfReader.numPages
i =0
while(i<num):
pageObj = pdfReader.getPage(i)
text=pageObj.extractText()
text1 = text.lower()
for line in text1:
print(line)
i= I+1
问题在于每行仅输出一个字符,因此很难处理整个句子。
这是我从this file获得的输出:
t
h
a
t
c
a
n
b
e
h
a
v
e
i
n
a
n
o
n
-
d
e
t
e
r
m
i
n
i
会有人知道为什么它会像这样出现,为什么我无法获得更容易处理的适当线条。对我而言,理想的方法是从pdf中获取句子,以便我可以在这些句子中查找一些特定的单词并计算它们的出现次数。