vb.net - 从PDF解析正文文本

时间：2012-07-09 20:49:49

标签： vb.net parsing pdf text itext

我最近刚试过在VB2010应用程序中使用iTextSharp解析PDF文档中的文本数据。该文档不包含任何图像或其他花哨的元素，只包含文本。我读了一些文章，并使用了一些代码片段，看起来很有希望。但是，我一直试图做的只是解析每个页面的主体，减去页眉或页脚。我没有找到任何有关该特定功能的指导。

目前使用此处找到的代码段Reading PDF content with itextsharp dll in VB.NET or C#，但它会解析页面中的所有文字。必须有一种方法来获得身体。或者至少我希望如此。

答案 0 :(得分：2)

PDF通常不包含有关所包含文本的逻辑结构的信息。

因此PDF中没有页眉，页脚，正文，段落等内容。只有一堆操作，比如“在这里绘制这个字形”，“移动到这个位置并在那里绘制那组字形”。我写了字形而不是字符，因为PDF不需要包含可读文本。只需要指定视觉外观。

一个例外是Tagged PDF，但野外的大多数PDF都没有标记。

鉴于上述所有情况，您可能会采用以下方法：

这是一种基于启发式的检测，因此它可能不会总是提供出色的结果。