c# - 如何在iTextSharp中识别PDF的一部分？

时间：2016-03-01 21:16:14

标签： c# loops pdf itextsharp sections

我想知道是否可以通过其部分（页眉，正文，页脚等）检索PDF中的文本我能够获取文本及其特定坐标，但我不想定义自己的x和部分的y坐标。我想知道是否有一种更有活力的方法来接近这一点。也许循环遍历XrefObjects。任何帮助将不胜感激。提前致谢。

答案 0 :(得分：2)

除非您的PDF文件是由非常一致的来源创建的，并且您不必处理“一般的PDF文件”，否则您的问题的答案是：

PDF没有任何规定来构建其内容，例如您在XML，HTML，Word等中的内容......标题，正文，页脚的概念不存在。甚至段落，行或单词的概念也不存在。 PDF只对确保在特定位置显示特定字符（字形）感兴趣。

因此，如果你想提出一种动态方法，你必须编写一个算法来分析页面上所有文本的文本位置，将其与该文本的其他属性相关联（例如使用的字体，字体大小，颜色，样式......）并从该分析中猜测标题，正文和页脚是什么。