我有一本我要索引的书的PDF文件,但我希望能够分辨出这本书中的哪一章(甚至是句子)。我怎么能在Solr中做到这一点,因为我不确定从文档中解决这个问题的正确方法。如果它不是PDF文件而是图书的文本文件,我该怎么做?
答案 0 :(得分:1)
使用PDF无法轻松完成。如果您可以访问ePub版本,那么您的工作就会简单得多。
PDF(除非它具有辅助功能层)不保留文本流,因此您将确定文本本身的真正问题,不要介意章节等。
问题不在于Solr(尚未),而是从PDF中提取基本内容。看看Apache Tika,看看它能提取多少信息。如果这还不够,则需要使用PDF以外的其他内容。