Question

我正在使用OCR Pytesseract从具有表格数据的图像中提取数据。我将其提取到文本文件中，并希望将其存储在Excel工作表中。我无法将其直接存储到Excel工作表中。但是我遇到的问题是将数据保存到文本文件后，我失去了表格形式的结构。我尝试转换为数据框，还提到了一些SO问题，但似乎没有帮助。我的目标是，excel工作表中的每个单元格都应具有单个值，该值将从Tesseract中提取。保存到excel并转换为数据框的代码是：

text = pytesseract.image_to_string(PIL.Image.open("jpg path"), config = config)
#print(text)
file = open("file.txt","a+", encoding  = "utf-8")
file.write("text :{0}".format(text)) 
file.close() 
list_of_lists = []

with open("fileone.txt", 'r', encoding = "utf-8") as f:
    for line in f:
        inner_list = [line.strip() for line in line.split("  ")]
        list_of_lists.append(inner_list)

df = pd.DataFrame(list_of_lists)
print(df)

使用OCR Pytesseract提取数据后保留表格结构

0 个答案: