我对分析文件有疑问。 使用Apache Tika,可以获得不同类型的不同文件的内容和元数据。
是否也可以通过Tika获取文件的关键字(即词干)或者我还需要Lucene吗?
答案 0 :(得分:3)
我不知道是否可能,但我建议在lucene中进行所有关键字分析。我的个人原因:
答案 1 :(得分:1)
蒂卡(Tika)和露西妮(Lucene)做的事情不同。
Tika的存在是为了从文件中获取数据。例如,您可以使用Tika从PDF中提取文本。
Lucene是一个索引器。因此,当您为Lucene提供Doc1.txt,Doc2.txt和Doc3.txt时,它将为它们建立索引,以便以后您可以搜索单词或短语(例如“ hello”),Lucene会以包含该单词或短语的文档列表作为响应单词,以及每个文档中的次数。
如果要索引任意内容,可以使用Tika首先提取文本,然后使用Lucene对其进行索引。