标签: lucene pdfbox
我使用PDFTextStripper类在Lucene索引之前提取pdf文本。
是否有可能从提取的文本中排除pdf页眉和页脚?
答案 0 :(得分:0)
如果您知道文档中页眉和页脚的确切位置,则可以按区域使用文本提取。希望这会有所帮助。