从PDF解析正文文本

时间:2012-07-09 20:49:49

标签: vb.net parsing pdf text itext

我最近刚试过在VB2010应用程序中使用iTextSharp解析PDF文档中的文本数据。该文档不包含任何图像或其他花哨的元素,只包含文本。我读了一些文章,并使用了一些代码片段,看起来很有希望。但是,我一直试图做的只是解析每个页面的主体,减去页眉或页脚。我没有找到任何有关该特定功能的指导。

目前使用此处找到的代码段Reading PDF content with itextsharp dll in VB.NET or C#,但它会解析页面中的所有文字。必须有一种方法来获得身体。或者至少我希望如此。

1 个答案:

答案 0 :(得分:2)

PDF通常不包含有关所包含文本的逻辑结构的信息。

因此PDF中没有页眉,页脚,正文,段落等内容。只有一堆操作,比如“在这里绘制这个字形”,“移动到这个位置并在那里绘制那组字形”。我写了字形而不是字符,因为PDF不需要包含可读文本。只需要指定视觉外观。

一个例外是Tagged PDF,但野外的大多数PDF都没有标记。

鉴于上述所有情况,您可能会采用以下方法:

  1. 从每页提取所有文字
  2. 分析文字并在每页的开头/结尾找到类似的部分
  3. 删除类似的部分
  4. 这是一种基于启发式的检测,因此它可能不会总是提供出色的结果。