Question

我收到一些pdf或jpg格式的报告。我做了一个代码，将pdf中的dataframe解析为csv。现在，我想将jpg格式的数据帧转换为csv，然后提供所需的结构。

我收到的文件结构： https://pasteboard.co/IoxQnUZa.jpg

我尝试过ocr，但我完全不知道如何管理此任务。您能帮我一些忙吗？当我尝试使用PIL和pytesseract时：

from PIL import Image
import pytesseract

im = Image.open('a.jpg')


text = pytesseract.image_to_string(im, lang = 'eng')

print(text)

但是出现奇怪的错误：

回溯（最近通话最近）：文件   “ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”，   第184行，在run_tesseract中       proc = subprocess.Popen（cmd_args，** subprocess_args（））文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”，   第775行，在 init 中       restore_signals，start_new_session）文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ subprocess.py”，   _execute_child中的第1178行       startupinfo）FileNotFoundError：[WinError 2]系统找不到指定的文件

在处理上述异常期间，发生了另一个异常：

回溯（最近一次通话最后一次）：文件“ copy_version1.py”，第7行   在       文本= pytesseract.image_to_string（im，lang ='eng'）文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”，   第309行，在image_to_string中       } output_type文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”，   308行，在       输出：STRING：lambda：run_and_get_output（* args），文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”，   第218行，在run_and_get_output中       run_tesseract（** kwargs）文件“ C：\ Users \ user \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pytesseract \ pytesseract.py”，   第186行，在run_tesseract中       引发TesseractNotFoundError（）pytesseract.pytesseract.TesseractNotFoundError：tesseract不是   已安装或不在您的路径中

我希望csv中有数据帧，然后我将管理文件以提供预期的结构。

如何将jpg格式的数据框转换为csv？

0 个答案: