如何使用python将双列pdf转换为word?

时间:2015-09-09 05:33:40

标签: python pdf pdfminer

在我的项目中,我需要以双列格式转换pdf。基本上我需要将它们转换为文本文件,我使用pdfminer,但排序完全是一团糟(当谈到双列,即IEEE论文)。我只是尝试将双列字(docx)文件转换为带有docx的文本,它至少对文本(不是表和方程)起作用。 这就是为什么我在想我是否可以最初将pdf转换为维护完整订单的单词,就像一些在线工具,即Nitro Cloud所做的那样。但是我需要使用python编程/ python包进行这种转换。

任何人都可以提供一些见解。 使用pdfminer的代码(我最初尝试过)。

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):

   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

   fp = file(path, 'rb')
   process_pdf(rsrcmgr, device, fp)
   fp.close()
   device.close()

   str = retstr.getvalue()
   retstr.close()
   return str
p1="C:\\sample\\samp.pdf" 

c1=convert_pdf_to_txt(p1)

(pdf样本:http://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf。)

0 个答案:

没有答案