用户使用类别,教授,日程安排等信息上传表格数据。
我想轻松提取这些信息。
我可以使用OCR库,但它只是随机混合输出文本。
我不知道是什么东西。
有没有办法训练OCR一点点只看图像(表格)的某个部分,然后标记数据,所以当它提取它时都标记了。等
假设我有一个包含大量数据的表单,我希望它只查看地址部分并标记它。
或者它像数据一样的电子表格,我希望它按列标注它。
简单地将所有文本提取到字符串中并不是很有用。
答案 0 :(得分:0)
如果每个文档都具有相同的格式。 尝试将文档分解成单独的部分,然后将所需文本输入OCR。 如果没有,那么祝你好运,我也在寻找答案。