获取PDF Image中的详细信息

时间:2014-05-09 03:08:12

标签: c# .net image pdf itextsharp

获得了这一系列的PDF,我需要获取所有细节。我已经可以使用iTextsharp获得一些文本细节,但问题是,一些PDF有图像,而该图像包含一些细节。

那么我可以将这些图像及其细节放在里面吗?作为下面的示例图像,我希望得到单词" head eye"," body square"," footer square"。我不需要绘图'我需要的是图像中的单词/ s。

如果我可以在我的.Net C#应用程序中使用某些API /库,那将会非常棒。谢谢!Image

1 个答案:

答案 0 :(得分:0)

如果您尝试读取的文字在图片上或混合使用,您可以使用Ghostscript栅格化PDF(将pdf页面转换为图片),然后使用Tesseract读取文本从该图像的部分。

由于您希望通过.NET(C#)执行此操作,因此您可以从此处获取两个组件的.NET包装器:

Ghostscript.NET http://ghostscriptnet.codeplex.com

tesseract-ocr .net: https://code.google.com/p/tesseractdotnet/