我应该在索引以下文件集时使用什么方法。
每个文件包含大约500k行字符(400MB) - 字符不是单词,它们是,为了问题随机字符,没有空格。
我需要能够找到包含给定12个字符的字符串的每一行,例如:
行: AXXXXXXXXXXXXJJJJKJIDJUD ....最多200个字符
有趣的部分: XXXXXXXXXXXX
在搜索时,我只对字符1-13感兴趣(所以 XXXXXXXXXXXX )。在搜索之后,我希望能够读取包含 XXXXXXXXXXXX 的行,而无需循环访问该文件。
我写了下面的poc(简化问题:
索引:
while ( (line = br.readLine()) != null ) {
doc = new Document();
Field fileNameField = new StringField(FILE_NAME, file.getName(), Field.Store.YES);
doc.add(fileNameField);
Field characterOffset = new IntField(CHARACTER_OFFSET, charsRead, Field.Store.YES);
doc.add(characterOffset);
String id = "";
try {
id = line.substring(1, 13);
doc.add(new TextField(CONTENTS, id, Field.Store.YES));
writer.addDocument(doc);
} catch ( IndexOutOfBoundsException ior ) {
//cut off for sake of question
} finally {
//simplified snipped for sake of question. characterOffset is amount of chars to skip which reading a file (ultimately bytes read)
charsRead += line.length() + 2;
}
}
搜索:
RegexpQuery q = new RegexpQuery(new Term(CONTENTS, id), RegExp.NONE); //cause id can be a regexp concernign 12char string
TopDocs results = searcher.search(q, Integer.MAX_VALUE);
ScoreDoc[] hits = results.scoreDocs;
int numTotalHits = results.totalHits;
Map<String, Set<Integer>> fileToOffsets = new HashMap<String, Set<Integer>>();
for ( int i = 0; i < numTotalHits; i++ ) {
Document doc = searcher.doc(hits[i].doc);
String fileName = doc.get(FILE_NAME);
if ( fileName != null ) {
String foundIds = doc.get(CONTENTS);
Set<Integer> offsets = fileToOffsets.get(fileName);
if ( offsets == null ) {
offsets = new HashSet<Integer>();
fileToOffsets.put(fileName, offsets);
}
String offset = doc.get(CHARACTER_OFFSET);
offsets.add(Integer.parseInt(offset));
}
}
这种方法的问题在于,它每行会创建一个doc。
你能否告诉我如何用lucene解决这个问题,如果lucene是一种方法可以去这里?
答案 0 :(得分:0)
不是为每次迭代添加新文档,而是使用相同的文档并继续添加具有相同名称的字段,例如:
Document doc = new Document();
Field fileNameField = new StringField(FILE_NAME, file.getName(), Field.Store.YES);
doc.add(fileNameField);
String id;
while ( (line = br.readLine()) != null ) {
id = "";
try {
id = line.substring(1, 13);
doc.add(new TextField(CONTENTS, id, Field.Store.YES));
//What is this (characteroffset) field for?
Field characterOffset = new IntField(CHARACTER_OFFSET, bytesRead, Field.Store.YES);
doc.add(characterOffset);
} catch ( IndexOutOfBoundsException ior ) {
//cut off
} finally {
if ( "".equals(line) ) {
bytesRead += 1;
} else {
bytesRead += line.length() + 2;
}
}
}
writer.addDocument(doc);
这将在每个行中添加id作为同一字段中的新术语。相同的查询应该继续有效。
我不确定如何使用CharacterOffset
字段。与id一样,每个值将作为另一个术语附加到字段的末尾。它不会直接与特定术语相关联,除了人们会假设相同数量的令牌进入该领域。如果您需要检索特定的行而不是整个文件的内容,那么您当前逐行索引的方法可能是最合理的。