我正在尝试以列表形式提取PDF的单词。
我可以从PDF中提取文本,但不能将其放在列表中
import PyPDF2
import pandas as pd
PDFfilename = '1200.pdf'
pdfFileObj = open(PDFfilename, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
for i in range(1, pdfReader.numPages):
pageObj = pdfReader.getPage(i)
print('\n\n')
txt=pageObj.extractText();
print(txt)
pdfFileObj.close()
预期结果:[阿拉巴马州,建筑物,..] 实际结果:阿拉巴马州大厦
答案 0 :(得分:0)
如果您的结果看起来像这样--- 阿拉巴马州大楼发生了什么事
txt = txt.split( )
print txt
答案 1 :(得分:0)
您可以为此使用split()方法。喜欢:
In-Reply-To
答案 2 :(得分:0)
如果您想对文本做更多的事情,还可以标记它。要处理此问题,我建议使用SpaCy。
首先,安装它并以英语添加SpaCy的“小型”模型
from rest_framework.response import Response
from rest_framework import serializers
import json
class Thisisfile(serializers.ModelSerializer):
def getsomething(name):
return Response({
"name": name,
})
getsomething()
然后,将这三行添加到您的代码中。
pip install spacy
python -m spacy download en_core_web_sm
import spacy # with other imports
nlp = spacy.load("en_core_web_sm") # early in your script to load the model
doc = nlp(txt) # before your print(txt) line
将是可迭代的。例如,您将能够使用语音标记来分析每个单词。
doc
输出:
for token in doc:
print(token, token.pos_)
玩得开心:)