c# - 使用C＃将PDF转换为可用文本

使用C＃将PDF转换为可用文本

时间：2009-10-31 01:59:52

标签： c# pdf text-extraction image-extraction

是否有一个库可以从c＃.net中的pdf文件中提取文本？我已经尝试了一些，但文档很糟糕，所以我无法让它开始。此外，如果它提供了一个类来提取将是一个加号的图像。有什么建议？ Thx提前。

此外，我需要能够将其实现到现有的应用程序中。

4 个答案:

答案 0 :(得分：3)

你试过PDFKit.NET吗？它有合理的文档和一些很好的例子。它专为服务器环境而设计，因此有点贵。

编辑以下是SourceForge上名为iTextSharp的开源库。它对开源项目是免费的。我没有用它，但看起来很有希望。 Here is a tutorial因为它有很多代码示例。

答案 1 :(得分：1)

您可以通过以下几种方式访问 - 很多方法取决于您是否要保留原始PDF的格式设置（即段落和其他布局元素）。

如果您正在考虑商业解决方案，我们会提供两种可能符合您要求的产品。一个是EasyPDF SDK，它具有单次ExtractText（）和ExtractText2（）调用，可以将文本作为纯文本从PDF中提取出来。

请注意，这些调用的输出非常简单，您将失去许多原始布局元素。它们适用于简单的文本提取，但如果您的PDF包含表格数据，则可能不太好。

如果你正在处理表格，一个更好的选择可能是将其作为富文本来取而代之。我们有一个名为EasyConverter SDK的工具，适用于商业文档，只需使用一个函数调用即可。

使用EasyConverter SDK，将保留原始PDF的布局。

两者都支持C＃，如果您有兴趣，请随时查看www.pdfonline.com上的评估版本。我确实为供应商工作所以请把这个建议作为一个爱自己孩子的母亲:-)我一直在浏览stackoverflow.com的代码片段很长一段时间，但最近才开始发帖，所以如果你有任何API的任何问题只是让我知道，我可以提供帮助。干杯！

答案 2 :(得分：1)

Docotic.Pdf library可以从PDF文件中提取文本和图像。

您只能从某些页面中提取整个文档中的文本。该库可以提取纯文本以及带坐标的文本块。

您可以从PDF中提取图像（如JPEG和TIFF文件）。

以下是您的任务的几个示例：

Extract text
Extract images

免责声明：我为图书馆的供应商Bit Miracle工作。

答案 3 :(得分：0)

我们在工作中使用大雪软件进行图像转换。它显然也支持text extraction。但是，这不是免费的。