Question

我正在尝试以列表形式提取PDF的单词。

我可以从PDF中提取文本，但不能将其放在列表中

import PyPDF2
import pandas as pd
PDFfilename = '1200.pdf' 

pdfFileObj = open(PDFfilename, 'rb') 

pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

for i in range(1, pdfReader.numPages):
    pageObj = pdfReader.getPage(i) 
    print('\n\n')
    txt=pageObj.extractText();
    print(txt)
pdfFileObj.close()

预期结果：[阿拉巴马州，建筑物，..] 实际结果：阿拉巴马州大厦

Answer 1

如果您的结果看起来像这样--- 阿拉巴马州大楼发生了什么事

txt = txt.split( )
print txt

Answer 2

您可以为此使用split（）方法。喜欢：

In-Reply-To

Answer 3

如果您想对文本做更多的事情，还可以标记它。要处理此问题，我建议使用SpaCy。

首先，安装它并以英语添加SpaCy的“小型”模型

from rest_framework.response import Response
from rest_framework import serializers
import json


class Thisisfile(serializers.ModelSerializer):

    def getsomething(name):
        return Response({
            "name": name,
        })

    getsomething()

然后，将这三行添加到您的代码中。

pip install spacy
python -m spacy download en_core_web_sm

import spacy # with other imports nlp = spacy.load("en_core_web_sm") # early in your script to load the model doc = nlp(txt) # before your print(txt) line将是可迭代的。例如，您将能够使用语音标记来分析每个单词。

doc

输出：

for token in doc:
  print(token, token.pos_)

玩得开心：）

在Python中从PDF提取单词列表

3 个答案: