从pdf转换为txt

时间:2018-11-29 07:32:31

标签: python jupyter-notebook

我已经将一些pdf文件转换为txt格式。但是,转换后如何保存?我试图使用file.write('file1')选项,但似乎无法正常工作。

file1 = pdf_to_txt("important_file_1.pdf")
file2 = pdf_to_txt("important_file_2.pdf")

谢谢您的帮助。

1 个答案:

答案 0 :(得分:0)

您需要以write模式打开一个新文件:

file1 = pdf_to_txt("important_file_1.pdf")
f = open('pdf_to_text.txt', 'w')
f.write(file1)
f.close()

要使其可重用,请执行以下操作:

import time
def save_pdf_to_text(file_to_save, filename=None):
    if not filename:
        timestr = time.strftime("%Y-%m-%d-%H-%M-%S")
        filename = '{}.txt'.format(timestr)
    with open(filename, 'w') as f:
        f.write(file_to_save)

用法:

file1 = pdf_to_txt("important_file_1.pdf")
save_pdf_to_text(file1)

它将创建带有时间戳的文件。或将文件名作为第二个参数传递。