我需要编写一个执行以下操作的桌面应用程序。我正在考虑使用Python作为编程语言,但如果有任何其他语言的适当方法或库,我会非常高兴切换。
我想要捕获的文件是一个HWP文件,只能运行某些字处理器。
捕获图像中的整个HWP文档,可能跨越多个页面(> 10< 15)
HWP文件包含MCQ格式的测验
解析图像中与问题和答案分开的数据,并将其另存为单独的图像文件。
我已经查看了以下python库,但仍然无法弄清楚如何执行1和3。
https://pypi.python.org/pypi/pyscreenshot
任何帮助都将不胜感激。
答案 0 :(得分:0)
如果我说得对,你需要从图像中提取文字。 对于这个你应该使用像tesseract的OCR。 在使用OCR之前,请尝试清除图像中的噪音。 要分割图像,请尝试添加一些唯一的字符串以区分测验Q / A