应该如何在Solr中索引xlsx格式的数据?

时间:2018-09-18 10:38:28

标签: indexing solr xlsx

我的任务是将一些数据上传到Solr,然后将其用于分析。

我了解Solr可以以xlsx文件格式索引数据。

在Solr的练习2中,以下文件按照json,xml和csv的顺序编制索引:

def init_metrics(){
    environment = [
        previousStageEnd = 0,
        stageDuration = null,
        stageTimes = [:]
    ]
}
init_metrics()

node{
    stage('Metrics'){
        println " - " + env.previousStageEnd + " - " + env.stageTimes + " - " + env.stageDuration + " - " + env.STAGE_NAME
        env.stageTimes[env.STAGE_NAME] = currentBuild.duration - (env.previousStageEnd as int)
        previousStageEnd = currentBuild.duration
    }
}

我遇到的问题是,尽管我为xlsx文件建立了索引,但它仅在查询中显示一条记录,这意味着该文件可能已被错误地建立索引,即它可能需要诸如csv文件所需的参数。谁能告诉我如何完成索引而不必将xlsx文件转换为csv文件?

1 个答案:

答案 0 :(得分:0)

您可以使用Apacha Tika在SOLR中为这些格式编制索引。它将解析数据并进行索引。

参考链接:  https://lucidworks.com/2009/09/02/content-extraction-with-tika/