应用错误收集

用Tika解析流（读者）并同时用Lucene索引它

时间：2013-02-20 10:04:06

标签： lucene streaming apache-tika

我正在阅读文档并想知道是否有可能不会读取流两次以便用Tika解析它，获取元数据+内容并将其索引到Lucene中？

我想避免在解析后将文件存储在内存中，因为它可能太大了。

我正在阅读以下链接，似乎它将已解析的文档内容保存在内存中 - http://johnreece.com/wordpress/2011/03/13/a-concise-tikalucene-content-parsing-and-indexing-example/

（也许以某种方式与“Anyways of making a Lucene field stored as well as streamed through a reader”相关联）

（另外，我想确保Lucene的TextField处理Reader而没有从String处理{{1}}，这应该消耗内存）

0 个答案:

没有答案