我是Python的初学者。我上周末开始了。我使用的是Python 3。
我正在尝试从pdf文件中读取文本。我首先按照Automate Boring Stuff中的说明尝试了pyPDF2,但是我得到的结果在单词之间没有空格,因此无法使用。然后我在命令行中输入“pip install pdfminer3k”来安装pdfminer3k。
然后我在解释器中输入以下行:
import pdfminer, os
base_path = ("C://Users//ross_")
my_file = os.path.join(base_path + "/" + "sample2.pdf")
log_file = os.path.join(base_path + "/" + "pdf_log.txt")
password = ""
extracted_text = ""
fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser, password)
但最后一行给了我这个错误信息:
追踪(最近一次通话): 文件“”,第1行,in document = PDFDocument(解析器,密码) NameError:名称'PDFDocument'未定义
有谁知道我为什么会收到该错误消息?我认为PDF文档将在pdfminer模块中定义。更一般地说,怎么弄清楚这样的东西?是不是有资源解释如何使用像pdfminer这样的模块?非常感谢和道歉,因为我完全无知。