使用python将pdf转换为html页面

时间:2016-06-25 12:15:03

标签: python html pdf subprocess

我有这个

for root, dirnames, filenames in os.walk('FilePath'):
    for filename in fnmatch.filter(filenames, 'page-*.pdf'):
    # matches.append(os.path.join(root, filename))
    subprocess.call('pdf2txt.py  > myoutput.html', shell = True) 

我需要在每次找到特定模式的文件时编写子进程[过滤条件]将pdf的子进程执行到该文件的html。

如何动态更改给予子进程的输入。

欢迎编辑。

1 个答案:

答案 0 :(得分:0)

考虑将globos模块一起使用来捕获 .pdf 模式以及输入.pdf和输出.html文件的完整绝对路径:

import os
import glob

# CURRENT DIRECTORY OF SCRIPT  
cd = os.path.dirname(os.path.abspath(__file__))

for pdf in glob.glob(cd+'/*.pdf'):
    file = pdf.replace('.pdf', '')
    subprocess.call('python path/to/pdf2txt.py -o {0}.html -t html {1}'.format(file, pdf), 
                    shell = True)