我正在使用OCR Pytesseract从具有表格数据的图像中提取数据。我将其提取到文本文件中,并希望将其存储在Excel工作表中。我无法将其直接存储到Excel工作表中。但是我遇到的问题是将数据保存到文本文件后,我失去了表格形式的结构。我尝试转换为数据框,还提到了一些SO问题,但似乎没有帮助。我的目标是,excel工作表中的每个单元格都应具有单个值,该值将从Tesseract中提取。 保存到excel并转换为数据框的代码是:
text = pytesseract.image_to_string(PIL.Image.open("jpg path"), config = config)
#print(text)
file = open("file.txt","a+", encoding = "utf-8")
file.write("text :{0}".format(text))
file.close()
list_of_lists = []
with open("fileone.txt", 'r', encoding = "utf-8") as f:
for line in f:
inner_list = [line.strip() for line in line.split(" ")]
list_of_lists.append(inner_list)
df = pd.DataFrame(list_of_lists)
print(df)