使用OCR Pytesseract提取数据后保留表格结构

时间:2019-01-28 09:29:13

标签: python python-3.x dataframe python-tesseract

我正在使用OCR Pytesseract从具有表格数据的图像中提取数据。我将其提取到文本文件中,并希望将其存储在Excel工作表中。我无法将其直接存储到Excel工作表中。但是我遇到的问题是将数据保存到文本文件后,我失去了表格形式的结构。我尝试转换为数据框,还提到了一些SO问题,但似乎没有帮助。我的目标是,excel工作表中的每个单元格都应具有单个值,该值将从Tesseract中提取。 保存到excel并转换为数据框的代码是:

text = pytesseract.image_to_string(PIL.Image.open("jpg path"), config = config)
#print(text)
file = open("file.txt","a+", encoding  = "utf-8")
file.write("text :{0}".format(text)) 
file.close() 
list_of_lists = []

with open("fileone.txt", 'r', encoding = "utf-8") as f:
    for line in f:
        inner_list = [line.strip() for line in line.split("  ")]
        list_of_lists.append(inner_list)

df = pd.DataFrame(list_of_lists)
print(df)

0 个答案:

没有答案