应用错误收集

时间：2014-05-09 03:08:12

标签： c# .net image pdf itextsharp

获得了这一系列的PDF，我需要获取所有细节。我已经可以使用iTextsharp获得一些文本细节，但问题是，一些PDF有图像，而该图像包含一些细节。

那么我可以将这些图像及其细节放在里面吗？作为下面的示例图像，我希望得到单词＆＃34; head eye＆＃34;，＆＃34; body square＆＃34;，＆＃34; footer square＆＃34;。我不需要绘图＆＃39;我需要的是图像中的单词/ s。

如果我可以在我的.Net C＃应用程序中使用某些API /库，那将会非常棒。谢谢！

答案 0 :(得分：0)

如果您尝试读取的文字在图片上或混合使用，您可以使用Ghostscript栅格化PDF（将pdf页面转换为图片），然后使用Tesseract读取文本从该图像的部分。

由于您希望通过.NET（C＃）执行此操作，因此您可以从此处获取两个组件的.NET包装器：

Ghostscript.NET ： http://ghostscriptnet.codeplex.com

tesseract-ocr .net： https://code.google.com/p/tesseractdotnet/