我正在尝试使用Mahout对存储在我的Solr / Lucene索引中的术语向量进行一些分析。不幸的是,最新的Mahout版本似乎落后于最新的Solr / Lucene版本。
我的Solr / Lucene安装是4.10.3。据我所知,最新的Mahout版本(1.0)预计Lucene的索引版本为4.6.1。
当我运行mahout lucene.vector
时,我收到错误:
Exception in thread "main" org.apache.lucene.index.IndexFormatTooNewException: Format version is not supported (resource: MMapIndexInput(path="/path/to/data/index/segments.gen")): -3 (needs to be between -2 and -2)
到目前为止,我已尝试过两件事来解决这个问题:
首先,我编辑了我的solrconfig.xml文件,说:
<luceneMatchVersion>4.6.1</luceneMatchVersion>
删除我的索引数据,并从原始文档中构建一个干净的索引。这没有解决错误。
其次,我尝试将Mahout pom.xml文件中的lucene.version
更改为4.10.3并重新编译二进制文件以查看是否已添加功能。我知道这不太可行,但无论如何都要尝试。
我的问题是,如果不是solrconfig.xml中的上述luceneMatchVersion设置,如何正确更改Solr用于编写索引文件的Lucene版本?