路径不打印字符串值

时间:2016-05-13 20:08:51

标签: python python-2.7

我最近发现这个非常方便的pdf转换库。我正在尝试将 pdf 转换为字符串值。为了解析数据并转换为csv文件。我想将来自动化,所以我不能使用Tabula。

我正在调用一些模块以将pdf转换为字符串。 字符串转换的部分无效。 (pdf2string.py) 这是pdf转换为字符串的一部分。

我没有错误。成功。但是,没有输出。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
import re
import csv
import sys

def convert_pdf_to_html(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = HTMLConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0 #is for all
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)
    fp.close()
    device.close()
    str = retstr.getvalue()
    retstr.close()
    return str

    print str

if __name__ == '__main__':
    if len(sys.argv) == 2:
        path = sys.argv[1]
        convert_pdf_to_html(path)

这是我的bash。

python pdf2string.py example.pdf

脚本为pdf2string.py,路径为example.pdf

我也是python中高级逻辑的新手。

1 个答案:

答案 0 :(得分:2)

修改:您在打印前返回 - 删除return str,或删除print str并使用以下建议。

您不是打印convert_pdf_to_html()的输出,也不是将其保存在某处。

print convert_pdf_to_html(path)