使用C#将PDF转换为可用文本

时间:2009-10-31 01:59:52

标签: c# pdf text-extraction image-extraction

是否有一个库可以从c#.net中的pdf文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法让它开始。此外,如果它提供了一个类来提取将是一个加号的图像。有什么建议? Thx提前。

此外,我需要能够将其实现到现有的应用程序中。

4 个答案:

答案 0 :(得分:3)

你试过PDFKit.NET吗?它有合理的文档和一些很好的例子。它专为服务器环境而设计,因此有点贵。

编辑以下是SourceForge上名为iTextSharp的开源库。它对开源项目是免费的。我没有用它,但看起来很有希望。 Here is a tutorial因为它有很多代码示例。

答案 1 :(得分:1)

您可以通过以下几种方式访问​​ - 很多方法取决于您是否要保留原始PDF的格式设置(即段落和其他布局元素)。

如果您正在考虑商业解决方案,我们会提供两种可能符合您要求的产品。一个是EasyPDF SDK,它具有单次ExtractText()和ExtractText2()调用,可以将文本作为纯文本从PDF中提取出来。

请注意,这些调用的输出非常简单,您将失去许多原始布局元素。它们适用于简单的文本提取,但如果您的PDF包含表格数据,则可能不太好。

如果你正在处理表格,一个更好的选择可能是将其作为富文本来取而代之。我们有一个名为EasyConverter SDK的工具,适用于商业文档,只需使用一个函数调用即可。

使用EasyConverter SDK,将保留原始PDF的布局。

两者都支持C#,如果您有兴趣,请随时查看www.pdfonline.com上的评估版本。我确实为供应商工作所以请把这个建议作为一个爱自己孩子的母亲:-)我一直在浏览stackoverflow.com的代码片段很长一段时间,但最近才开始发帖,所以如果你有任何API的任何问题只是让我知道,我可以提供帮助。干杯!

答案 2 :(得分:1)

Docotic.Pdf library可以从PDF文件中提取文本和图像。

您只能从某些页面中提取整个文档中的文本。该库可以提取纯文本以及带坐标的文本块。

您可以从PDF中提取图像(如JPEG和TIFF文件)。

以下是您的任务的几个示例:

免责声明:我为图书馆的供应商Bit Miracle工作。

答案 3 :(得分:0)

我们在工作中使用大雪软件进行图像转换。它显然也支持text extraction。但是,这不是免费的。