将包含表格的PDF文件转换为包含Python表格的文本文档

时间:2015-02-25 17:57:57

标签: python converter pypdf

我有这个pdf文件,包含一般表格,包括姓名,地址,电话号码,传真号码。我想要的是:

Table

1)读取此文件并获取每行的内容并将其放入数据库中。   即从pdf文件的相应名称列中获取名称并将其存储在数据库中。等地址,电话等。

主要问题是每当我阅读pdf文件并将其转换为文本文件时(因为我不知道任何其他方式直接使用数据而不将其首先转换为文本文件)文本输出完全是搞砸了,格式和间距没有保留。请提供一种新的方法来执行此操作或在以下代码中可以执行的操作:

import pyPdf
def getPDFContent(path):
    f=open("C:\\Doctor's Data\\delhi\\hospital_delhi1.txt","w")
    content = ""
    text=""
    s=""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content = pdf.getPage(i).extractText() + "\n\n"
        text+=content
        tokens=content.split("Fax")
        print len(tokens)
        for t in tokens:
            print t #general check
    print s        
    f.close()    
    return text


getPDFContent("C:\\Doctor's Data\\delhi\\hospital_delhi1.pdf")

将我的输出加起来是(Messed Up):

医院/临床医院的医院/诊所地址。 DELHI59Walia护理院医院的传真名单G.60,Laxmi Nagar,Shakarpur,DelhiDr.A.S.Dave - 2224858560 Metro Heart InstituteSector A,Faridabad :226358961Ayushman HospitalSector-XII,Dwarka,New Delhi42811114 / 15/16/18 :28081723,4553700163Mohan Eye Institute11-B,Ganga Ram Hospital Marg,New Delhi-6064Shroff Eye CentreKasturba Gandhi Marg,New Delhi报销CGHS费率,不含信贷基础65Rockland HospitalB-33-34,Qutab Institutional Area,New Delhi66国家心脏研究所49,社区中心,东Kailash

1 个答案:

答案 0 :(得分:0)

看看一些已经存在的python包: