在Python中从PDF提取单词列表

时间:2019-06-25 17:51:11

标签: python list pdf text

我正在尝试以列表形式提取PDF的单词。

我可以从PDF中提取文本,但不能将其放在列表中

import PyPDF2
import pandas as pd
PDFfilename = '1200.pdf' 

pdfFileObj = open(PDFfilename, 'rb') 

pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

for i in range(1, pdfReader.numPages):
    pageObj = pdfReader.getPage(i) 
    print('\n\n')
    txt=pageObj.extractText();
    print(txt)
pdfFileObj.close()

预期结果:[阿拉巴马州,建筑物,..] 实际结果:阿拉巴马州大厦

3 个答案:

答案 0 :(得分:0)

如果您的结果看起来像这样--- 阿拉巴马州大楼发生了什么事

txt = txt.split( )
print txt

答案 1 :(得分:0)

您可以为此使用split()方法。喜欢:

In-Reply-To

答案 2 :(得分:0)

如果您想对文本做更多的事情,还可以标记它。要处理此问题,我建议使用SpaCy

首先,安装它并以英语添加SpaCy的“小型”模型

from rest_framework.response import Response
from rest_framework import serializers
import json


class Thisisfile(serializers.ModelSerializer):

    def getsomething(name):
        return Response({
            "name": name,
        })

    getsomething()

然后,将这三行添加到您的代码中。

pip install spacy
python -m spacy download en_core_web_sm

import spacy # with other imports nlp = spacy.load("en_core_web_sm") # early in your script to load the model doc = nlp(txt) # before your print(txt) line 将是可迭代的。例如,您将能够使用语音标记来分析每个单词。

doc

输出:

for token in doc:
  print(token, token.pos_)

玩得开心:)