Apache Tika与Apache Lucene

时间:2017-10-10 09:26:05

标签: lucene apache-tika

我对分析文件有疑问。 使用Apache Tika,可以获得不同类型的不同文件的内容和元数据。

是否也可以通过Tika获取文件的关键字(即词干)或者我还需要Lucene吗?

2 个答案:

答案 0 :(得分:3)

我不知道是否可能,但我建议在lucene中进行所有关键字分析。我的个人原因:

  • Tika的主要目标是从文件中提取信息
  • Lucenes定义了如何分析和索引数据。如何分析数据对你的lucene索引在搜索中的表现有多大影响(找到你期望找到的东西)
  • 这是Tika只提取和Lucene关心搜索相关事物的关注点分离

答案 1 :(得分:1)

蒂卡(Tika)和露西妮(Lucene)做的事情不同。

Tika的存在是为了从文件中获取数据。例如,您可以使用Tika从PDF中提取文本。

Lucene是一个索引器。因此,当您为Lucene提供Doc1.txt,Doc2.txt和Doc3.txt时,它将为它们建立索引,以便以后您可以搜索单词或短语(例如“ hello”),Lucene会以包含该单词或短语的文档列表作为响应单词,以及每个文档中的次数。

如果要索引任意内容,可以使用Tika首先提取文本,然后使用Lucene对其进行索引。