获得了这一系列的PDF,我需要获取所有细节。我已经可以使用iTextsharp获得一些文本细节,但问题是,一些PDF有图像,而该图像包含一些细节。
那么我可以将这些图像及其细节放在里面吗?作为下面的示例图像,我希望得到单词" head eye"," body square"," footer square"。我不需要绘图'我需要的是图像中的单词/ s。
如果我可以在我的.Net C#应用程序中使用某些API /库,那将会非常棒。谢谢!
答案 0 :(得分:0)
如果您尝试读取的文字在图片上或混合使用,您可以使用Ghostscript栅格化PDF(将pdf页面转换为图片),然后使用Tesseract读取文本从该图像的部分。
由于您希望通过.NET(C#)执行此操作,因此您可以从此处获取两个组件的.NET包装器:
Ghostscript.NET : http://ghostscriptnet.codeplex.com
tesseract-ocr .net: https://code.google.com/p/tesseractdotnet/