这是我的代码 - 礼貌 - http://code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/。 我修改它以包含下一版本的PyPDF。
import PyPDF2
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = PyPDF2.PdfFileReader(file(path, "rb"))
# Iterate pages
print "Number of pages is ", pdf.getNumPages()
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
print (content)
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("RL.pdf").encode("ascii", "xmlcharrefreplace")
我正在阅读的文件在这里。 http://dmc.kar.nic.in/RL.pdf
我得到的就是这个。
页数为1 在此之后空白。
这是PDF的问题还是我在某处出错了? 所有帮助表示赞赏!
答案 0 :(得分:0)
该文件已证明已损坏。