应用错误收集

我应该如何索引Solr中的一本书？

时间：2014-08-10 00:59:39

标签： solr indexing full-text-search

我有一本我要索引的书的PDF文件，但我希望能够分辨出这本书中的哪一章（甚至是句子）。我怎么能在Solr中做到这一点，因为我不确定从文档中解决这个问题的正确方法。如果它不是PDF文件而是图书的文本文件，我该怎么做？

1 个答案:

答案 0 :(得分：1)

使用PDF无法轻松完成。如果您可以访问ePub版本，那么您的工作就会简单得多。

PDF（除非它具有辅助功能层）不保留文本流，因此您将确定文本本身的真正问题，不要介意章节等。

问题不在于Solr（尚未），而是从PDF中提取基本内容。看看Apache Tika，看看它能提取多少信息。如果这还不够，则需要使用PDF以外的其他内容。