我收到一些pdf或jpg格式的报告。我做了一个代码,将pdf中的dataframe解析为csv。现在,我想将jpg格式的数据帧转换为csv,然后提供所需的结构。
我收到的文件结构: https://pasteboard.co/IoxQnUZa.jpg
我尝试过ocr,但我完全不知道如何管理此任务。您能帮我一些忙吗? 当我尝试使用PIL和pytesseract时:
from PIL import Image
import pytesseract
im = Image.open('a.jpg')
text = pytesseract.image_to_string(im, lang = 'eng')
print(text)
但是出现奇怪的错误:
回溯(最近通话最近):文件 “ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”, 第184行,在run_tesseract中 proc = subprocess.Popen(cmd_args,** subprocess_args())文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”, 第775行,在 init 中 restore_signals,start_new_session)文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”, _execute_child中的第1178行 startupinfo)FileNotFoundError:[WinError 2]系统找不到指定的文件
在处理上述异常期间,发生了另一个异常:
回溯(最近一次通话最后一次):文件“ copy_version1.py”,第7行 在 文本= pytesseract.image_to_string(im,lang ='eng')文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”, 第309行,在image_to_string中 } output_type文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”, 308行,在 输出:STRING:lambda:run_and_get_output(* args),文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”, 第218行,在run_and_get_output中 run_tesseract(** kwargs)文件“ C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”, 第186行,在run_tesseract中 引发TesseractNotFoundError()pytesseract.pytesseract.TesseractNotFoundError:tesseract不是 已安装或不在您的路径中
我希望csv中有数据帧,然后我将管理文件以提供预期的结构。