Lucene性能:将字段数据从一个索引传输到另一个索引

时间:2012-07-31 06:17:06

标签: java search lucene

简而言之,我需要将多个字段和值的映射从一个索引交换到结果索引。

以下是该方案。

索引1 结构 [Field =>值] [已存储]

Doc 1    
keys => keyword1;    
Ids => id1, id1, id2, id3, id7, id11, etc.. 

Doc 2    
keys => keyword2;    
Ids => id3, id11, etc..

索引2 结构 [Field =>值] [已存储]

Doc 1    
ids => id1    
keys => keyword1, keyword1

Doc 3    
ids => id3    
keys => keyword1, keyword2, etc..

请注意,结果索引中的< - > ID 映射已反转

您认为在时间复杂度方面实现这一目标的最有效方法是什么? ..

我能想到的唯一方法是......

1) index1Reader.terms();    
2) Process only terms belonging to "Ids" field    
3) For each term, get TermDocs    
4) For each doc, load it, get "keys" field info    
5) Create a new Lucene Doc, add 'Id', multi Keys, write it to index2.     
6) Go to step 2.

由于存储了字段,我确信有多种方法可以实现。

请指导我使用任何表演技巧。 考虑到Index1大小约为6GB,即使是最轻微的改进也会对我的场景产生巨大影响。

总数没有。独特关键字:1800万; 总数没有。独特的ID:90万

有趣更新

优化1

  • 在添加新文档时,而不是创建多个重复的'字段'对象,使用"创建单个StringBuffer; "分隔符,然后添加整个单个字段似乎有高达25%的改进。

更新2:代码

    public void go() throws IOException, ParseException {
    String id = null;
    int counter = 0;
    while ((id = getNextId()) != null) { // this method is not taking time..
        System.out.println("Node id: " + id);
        updateIndex2DataForId(id);
        if(++counter > 10){
            break;
        }
    }
    index2Writer.close();
}

private void updateIndex2DataForId(String id) throws ParseException, IOException {
    // Get all terms containing the node id
    TermDocs termDocs = index1Reader.termDocs(new Term("id", id));
    // Iterate
    Document doc = new Document();
    doc.add(new Field("id", id, Store.YES, Index.NOT_ANALYZED));
    int docId = -1;        
    while (termDocs.next()) {
        docId = termDocs.doc();
        doc.add(getKeyDataAsField(docId, Store.YES, Index.NOT_ANALYZED));            
    }
    index2Writer.addDocument(doc);
}

private Field getKeyDataAsField(int docId, Store storeOption, Index indexOption) throws CorruptIndexException,
        IOException {
    Document doc = index1Reader.document(docId, fieldSelector); // fieldSel has "key"
    Field f = new Field("key", doc.get("key"), storeOption, indexOption);
    return f;
}

1 个答案:

答案 0 :(得分:0)

FieldCache的使用就像魅力......但是,我们需要分配越来越多的RAM来容纳堆上的所有字段。

我已使用以下代码段更新了上述updateIndex2DataForId()..

private void updateIndex2DataForId(String id) throws ParseException, IOException {
    // Get all terms containing the node id
    TermDocs termDocs = index1Reader.termDocs(new Term("id", id));
    // Iterate
    Document doc = new Document();
    doc.add(new Field("id", id, Store.YES, Index.NOT_ANALYZED));
    int docId = -1;
    StringBuffer buffer = new StringBuffer();
    while (termDocs.next()) {
        docId = termDocs.doc();
        buffer .append(keys[docId] + " "); // keys[] is pre-populated using FieldCache                 
    }
    doc.add(new Field("id", buffer.trim().toString(), Store.YES, Index.ANALYZED));   
    index2Writer.addDocument(doc);
}

String[] keys = FieldCache.DEFAULT.getStrings(index1Reader, "keywords");

它使一切变得更快,我无法告诉你确切的指标,但我必须说非常重要。

现在该计划在一段合理的时间内完成。无论如何,进一步的指导是高度赞赏的。