如何从PDF中提取手写内容?

时间:2019-07-09 21:10:14

标签: java python image-processing

我正在寻找从PDF文件中提取手写文本的方法。任何图书馆的建议和有用的入门资源将不胜感激。我更愿意使用python或java来完成此任务。

1 个答案:

答案 0 :(得分:-1)

完成任务的最佳工具是使用OpenCV库进行图像处理,并使用一些神经网络对文本进行分类。

  

OpenCV(开源计算机视觉库)是一个开源计算机视觉和机器学习软件库。 OpenCV的构建旨在为计算机视觉应用程序提供通用的基础结构,并加快在商业产品中使用机器感知的速度。

在那里您可以找到许多易于使用的功能,这些功能使您的工作变得容易。我的建议是按照以下步骤操作:

  1. 使用OpenCV方法对图片进行预处理并进行分割。您的目标是找到图片的哪些区域包含手写文字
  2. 使用某种分类方法对检测到的文本进行分类,并找到与书写文本相对应的字母。我建议使用OpenCV使用的library训练支持向量机(SVM)模型,或使用Keras来建立自己的神经网络。

Here you can see a complete tutorial on how to do your task.

另一个使用Keras的简单教程,您可以找到here

如果您想了解有关OpenCV的更多信息,建议您访问网站pyimagesearch