我想知道是否可以通过其部分(页眉,正文,页脚等)检索PDF中的文本我能够获取文本及其特定坐标,但我不想定义自己的x和部分的y坐标。我想知道是否有一种更有活力的方法来接近这一点。 也许循环遍历XrefObjects。任何帮助将不胜感激。提前致谢。
答案 0 :(得分:2)
除非您的PDF文件是由非常一致的来源创建的,并且您不必处理“一般的PDF文件”,否则您的问题的答案是:
PDF没有任何规定来构建其内容,例如您在XML,HTML,Word等中的内容......标题,正文,页脚的概念不存在。甚至段落,行或单词的概念也不存在。 PDF只对确保在特定位置显示特定字符(字形)感兴趣。
因此,如果你想提出一种动态方法,你必须编写一个算法来分析页面上所有文本的文本位置,将其与该文本的其他属性相关联(例如使用的字体,字体大小,颜色,样式......)并从该分析中猜测标题,正文和页脚是什么。