如何将jpg格式的数据框转换为csv?

时间:2019-07-18 12:24:56

标签: python python-3.x dataframe ocr python-3.7

我收到一些pdf或jpg格式的报告。我做了一个代码,将pdf中的dataframe解析为csv。现在,我想将jpg格式的数据帧转换为csv,然后提供所需的结构。

我收到的文件结构: https://pasteboard.co/IoxQnUZa.jpg

我尝试过ocr,但我完全不知道如何管理此任务。您能帮我一些忙吗? 当我尝试使用PIL和pytesseract时:

from PIL import Image
import pytesseract

im = Image.open('a.jpg')


text = pytesseract.image_to_string(im, lang = 'eng')

print(text)

但是出现奇怪的错误:

  

回溯(最近通话最近):文件   “ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”,   第184行,在run_tesseract中       proc = subprocess.Popen(cmd_args,** subprocess_args())文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”,   第775行,在 init 中       restore_signals,start_new_session)文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”,   _execute_child中的第1178行       startupinfo)FileNotFoundError:[WinError 2]系统找不到指定的文件

     

在处理上述异常期间,发生了另一个异常:

     

回溯(最近一次通话最后一次):文件“ copy_version1.py”,第7行   在       文本= pytesseract.image_to_string(im,lang ='eng')文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”,   第309行,在image_to_string中       } output_type文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”,   308行,在       输出:STRING:lambda:run_and_get_output(* args),文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”,   第218行,在run_and_get_output中       run_tesseract(** kwargs)文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”,   第186行,在run_tesseract中       引发TesseractNotFoundError()pytesseract.pytesseract.TesseractNotFoundError:tesseract不是   已安装或不在您的路径中

我希望csv中有数据帧,然后我将管理文件以提供预期的结构。

0 个答案:

没有答案