将参数传递给pdf2txt函数

时间:2015-10-24 03:03:28

标签: python python-2.7 command-line-arguments python-idle pdfminer

我尝试使用PDFMiner从PDF文件中提取文本。我想使用脚本pdf2txt.py来运行

中的示例示例

http://www.unixuser.org/~euske/python/pdfminer/index.html

使用此单行

pdf2txt.py samples/simple1.pdf

由于我使用IDLE在Windows上工作,因此我在IDLE

中运行以下脚本
import pdf2txt

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])

每次给我

用法:C:\ Usersernor \ Desktop \ Dictionary Construction \ simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P密码] [-o输出] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation] [-t text | html | xml | tag] [-c codec] [-s scale] file ...

我知道这是一条错误消息,告诉我该参数未被解析。 pdf2txt.py的前几行如下:

def main(argv):
    import getopt
def usage():
    print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
           ' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
           ' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
           ' [-t text|html|xml|tag] [-c codec] [-s scale]'
           ' file ...' % argv[0])
    return 100
try:
    (opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:

我如何格式化我的论点来制作它?我知道这是一个愚蠢的问题,但它让我疯狂。

请帮助我!

谢谢,

杰森

更新

按照路易斯的建议,我将命令改为

pdf2txt.main(['simple1.html','mypdf.pdf'])

现在它可以在shell窗口中生成输出,但是,我找不到输出文件' simple1.html',我尝试了以下命令:

pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

他们都没有在我指定的文件夹中工作和制作文件。

1 个答案:

答案 0 :(得分:1)

你应该把它称为:

pdf2txt.py samples/simple1.txt samples/simple1.pdf

如果你愿意,让我们说,samples / simple1.txt是输出。