PDF使用pdfbox进行lucene文档转换

时间:2013-08-13 08:39:27

标签: java solr lucene pdfbox apache-tika

PDFbox提供了将pdf转换为lucene文档的类。它是否保留了文档的格式。通过格式化我的意思是它存储有关位置和字体类型/大小和其他选项的详细信息。

1 个答案:

答案 0 :(得分:0)

默认情况下,它会删除所有格式并仅提取文本内容并使其可搜索。可以搜索此内容,并且可以在索引外部维护原始PDF,并在找到匹配时返回搜索结果。如果这是您的意图,从Lucene索引重建PDF可能不是最好的方法。

PDFBox非常有能力提取元数据,如果你希望能够搜索那种东西,它当然可以用来索引格式化/字体/等数据。