我正在为Solr添加一个文本引理器。我必须处理整个文本,因为词典化中的上下文很重要。
我在互联网上获得此代码并进行了一些修改
http://grokbase.com/t/lucene/solr-user/138d0qn4v0/issue-with-custom-tokenizer
我添加了我们的lemmatizer,我改变了这一行
endOffset = word.length();
这个
endOffset = startOffset + word.length();
现在如果我使用Solr Admin analisys,我在索引或查询值方面没有问题。 我写这个短语,当我分析数值时,结果是文本很好的词形。
当我在Query部分和我索引文档时进行查询时出现问题。 检查debugquery我可以看到这个。如果我在“naiz_body”中要求“korrikan”文本(意思是“正在运行”),那么该文本就会被充分理论化。
<str name="rawquerystring">naiz_body:"korrikan"</str>
<str name="querystring">naiz_body:"korrikan"</str>
<str name="parsedquery">naiz_body:korrika</str>
<str name="parsedquery_toString">naiz_body:korrika</str>
现在,如果我要求“jolasten”文本(意思是“播放”),则文本不会被词形化,并且parsedquery和parsedquery_toString不会更改。
<str name="rawquerystring">naiz_body:"jolasten"</str>
<str name="querystring">naiz_body:"jolasten"</str>
<str name="parsedquery">naiz_body:korrika</str>
<str name="parsedquery_toString">naiz_body:korrika</str>
如果我等一下(或者如果我停止solr并且我运行它)并且我要求“jolasten”文本我得到文本很好的lemmatized
<str name="rawquerystring">naiz_body:"jolasten"</str>
<str name="querystring">naiz_body:"jolasten"</str>
<str name="parsedquery">naiz_body:jolastu</str>
<str name="parsedquery_toString">naiz_body:jolastu</str>
为什么?
以下是代码:
package eu.solr.analysis;
import java.io.IOException;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;
import eu.solr.analysis.Lemmatizer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
public class LemmatizerTokenizer extends Tokenizer {
private Lemmatizer lemmatizer = new Lemmatizer();
private List<Token> tokenList = new ArrayList<Token>();
int tokenCounter = -1;
private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
private final OffsetAttribute offsetAttribute = (OffsetAttribute)addAttribute(OffsetAttribute.class);
private final PositionIncrementAttribute position = (PositionIncrementAttribute)addAttribute(PositionIncrementAttribute.class);
public LemmatizerTokenizer(AttributeFactory factory, Reader reader) {
super(factory, reader);
System.out.println("### Lemmatizer Tokenizer ###");
String textToProcess = null;
try {
textToProcess = readFully(reader);
processText(textToProcess);
} catch (IOException e) {
e.printStackTrace();
}
}
public String readFully(Reader reader) throws IOException {
char[] arr = new char[8 * 1024]; // 8K at a time
StringBuffer buf = new StringBuffer();
int numChars;
while ((numChars = reader.read(arr, 0, arr.length)) > 0) {
buf.append(arr, 0, numChars);
}
System.out.println("### Read Fully ### => " + buf.toString());
return lemmatizer.getLemma(buf.toString());
}
public void processText(String textToProcess) {
System.out.println("### Process Text ### => " + textToProcess);
String wordsList[] = textToProcess.split(" ");
int startOffset = 0, endOffset = 0;
for (String word : wordsList) {
endOffset = startOffset + word.length();
Token aToken = new Token(word, startOffset, endOffset);
aToken.setPositionIncrement(1);
tokenList.add(aToken);
startOffset = endOffset + 1;
}
}
@Override
public boolean incrementToken() throws IOException {
clearAttributes();
tokenCounter++;
System.out.println("### Increment Token ###");
System.out.println("Token Counter => " + tokenCounter);
System.out.println("TokenList size => " + tokenList.size());
if (tokenCounter < tokenList.size()) {
Token aToken = tokenList.get(tokenCounter);
System.out.println("Increment Token => " + aToken.toString());
termAtt.append(aToken);
termAtt.setLength(aToken.length());
offsetAttribute.setOffset(correctOffset(aToken.startOffset()),
correctOffset(aToken.endOffset()));
position.setPositionIncrement(aToken.getPositionIncrement());
return true;
}
return false;
}
@Override
public void close() throws IOException {
System.out.println("### Close ###");
super.close();
}
@Override
public void end() throws IOException {
// setting final offset
System.out.println("### End ###");
super.end();
}
@Override
public void reset() throws IOException {
System.out.println("### Reset ###");
tokenCounter = -1;
super.reset();
}
}
谢谢大家!
编辑:
回答@ alexandre-rafalovitch Admin UI中的Analysis屏幕运行良好。如果我创建一个查询或索引文本,文本是很好的词形。 问题出在查询UI中。如果我首先调用lemmatizer进行查询,但第二个看起来像使用缓冲的第一个词形文本并直接调用incrementToken。 进行此查询时请参阅代码输出: 在Analysis UI中,如果我查询Korrikan然后查询Jolasten,则输出:
## BasqueLemmatizerTokenizer create
### BasqueLemmatizer Tokenizer ###
### Read Fully ### => korrikan
### Eustagger OUT ### => korrika
### Process Text ### => korrika
### Reset ###
### Increment Token ###
Token Counter => 0
TokenList size => 1
Increment Token => korrika
### Increment Token ###
Token Counter => 1
TokenList size => 1
## BasqueLemmatizerTokenizer create
### BasqueLemmatizer Tokenizer ###
### Read Fully ### => Jolasten
### Eustagger OUT ### => jolastu
### Process Text ### => jolastu
### Reset ###
### Increment Token ###
Token Counter => 0
TokenList size => 1
Increment Token => jolastu
### Increment Token ###
Token Counter => 1
TokenList size => 1
如果我在查询UI上进行此查询,则输出:
## BasqueLemmatizerTokenizer create
### BasqueLemmatizer Tokenizer ###
### Read Fully ### => korrikan
### Eustagger OUT ### => korrika
### Process Text ### => korrika
### Reset ###
### Increment Token ###
Token Counter => 0
TokenList size => 1
Increment Token => korrika
### Increment Token ###
Token Counter => 1
TokenList size => 1
### End ###
### Close ###
### Reset ###
### Increment Token ###
Token Counter => 0
TokenList size => 1
Increment Token => korrika
### Increment Token ###
Token Counter => 1
TokenList size => 1
### End ###
### Close ###
在第二个中,它不会创建一个标记化器,看起来像重置它但是它读取旧文本。
我写信给代码所有者,他回答我看TrieTokenizer。
答案 0 :(得分:0)
你确定问题是lematizer吗?您可以通过在管理界面中将文本放入“分析”屏幕来进行检查。输入文本并查看分析仪链的功能。
但是,以下部分:
如果我等一下(或者如果我停止solr并且我运行它)并且我要求&#34; jolasten&#34;我得到的文本很好被lemmatized
让我觉得你可能只是忘记提交索引文本。然后,内容显示之前的延迟将通过软件提交来解释,并在solrconfig.xml中配置间隔。
答案 1 :(得分:0)
最后我做到了!
我修改了PatternTokenizer,然后使用StandardTokenizer来使用lemmatizer。 简而言之,我将输入中的字符串变为lemmatize,然后使用lemmatized文本创建一个StringReader。
以下是代码,希望它对某人有用(修改StandardTokenizer脚本):
...
public String processReader(Reader reader) throws IOException {
char[] arr = new char[8 * 1024]; // 8K at a time
StringBuffer buf = new StringBuffer();
int numChars;
while ((numChars = reader.read(arr, 0, arr.length)) > 0) {
buf.append(arr, 0, numChars);
}
return lemmatizer.getLemma(buf.toString());
}
...
public void reset() throws IOException {
scanner.yyreset(new StringReader(processReader(input)));
}