Question

我正在研究搜索引擎（Java J2ee，Hibernate，Hibernate Search和Lucene）。我分析文档内容。我的所有系统都没问题，但有一个问题仍然存在。分析仪的选择！

我的文件是法文的，因为这项研究是用法语进行的，所以它非常重要。但我的搜索引擎应该能够搜索编程语言名称，如（Java，COBOL，C，C＃，C ++，....）

我现在正在使用Lucene的法语分析器，问题是对条款的要求的结果＆＃34; C＆＃34;，＆＃34; C ++＆＃34;，＆＃34; C＃＆＃34 ;. 我想：[＆＃34; C＆＃34;或＆＃34; C ++＆＃34;或＆＃34; C＃＆＃34;] =＆gt; ＆＃34; C＆＃34;但我有=＆gt; ＆＃34;＆＃34;

我实际上是这些技术的新手，我想知道我应该使用哪个分析器，或者如果我必须实现特定的分析器。

（我使用的是hibernate search 3.0.0.GA（非常古老......）而且我无法更改版本。）

Thanxs

Answer 1

请参阅FrenchAnalyzer.FRENCH_STOP_WORDS，“c”是法语停止词。您可以通过相应的FrenchAnalyzer constructor定义自己的停止集。

您可以从默认设置开始，只需在定义自己的停用词时删除不需要的停用词。完整的默认法语停止集是：

"a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi",
"autre", "autres", "aux", "auxquelles", "auxquels", "avait", "avant", "avec", "avoir",
"c", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain",
"certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez", "ci",
"combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout",
"dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles",
"desquels", "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse",
"diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles",
"en", "entre", "environ", "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis",
"hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle",
"le", "lequel", "les", "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là",
"ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi",
"moins", "mon", "moyennant", "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre",
"nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi",
"partant", "pas", "passé", "pendant", "plein", "plus", "plusieurs", "pour", "pourquoi",
"proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels",
"qui", "quoi", "quoique", "revoici", "revoilà", "s", "sa", "sans", "sauf", "se", "selon",
"seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit",
"son", "sont", "sous", "suivant", "sur", "ta", "te", "tes", "tien", "tienne", "tiennes",
"tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers",
"voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres", "y", "à", "ça", "ès",
"été", "être", "ô"

Answer 2

我回来因为我对我的解决方案不满意（不起作用......）。我修改了StopWords列表（我压缩了“c”字），并在词干排除列表中添加了（“C”，“C ++”，“C＃”）。我修改了构造函数以设置Stem排除列表。

在我的班级索引文件中我得到了：

// I've verified my custom constructor was called
@Analyzer(impl = CustomFrenchAnalyzer.class)
...

我创建了一个用我的自定义分析器构建的查询的打印并发送到lucene，对于keyWords C，C ++，C＃，查询是SContent： c （而不是c，c ++或c＃之类的我会）

如果有人知道为什么??

这是我的CustomFrenchAnalyzer类：

public class CustomFrenchAnalyzer extends Analyzer {

protected static final Log LOG = LogFactory.getLog(CustomFrenchAnalyzer.class);
/**
 * Extended list of custom French stopwords ( Without "c" ).
 */
public final static String[] FRENCH_STOP_WORDS = { "a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi", "autre", "autres", "aux", "auxquelles", "auxquels", "avait",
        "avant", "avec", "avoir", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain", "certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez",
        "ci", "combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout", "dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles", "desquels",
        "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse", "diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles", "en", "entre", "environ",
        "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis", "hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle", "le", "lequel", "les",
        "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là", "ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi", "moins", "mon", "moyennant",
        "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre", "nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi", "partant", "pas", "passé", "pendant",
        "plein", "plus", "plusieurs", "pour", "pourquoi", "proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels", "qui", "quoi", "quoique", "revoici", "revoilà",
        "s", "sa", "sans", "sauf", "se", "selon", "seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit", "son", "sont", "sous", "suivant", "sur", "ta", "te", "tes",
        "tien", "tienne", "tiennes", "tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers", "voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres",
        "y", "à", "ça", "ès", "été", "être", "ô" };

/**
 * Contains the stopwords used with the StopFilter.
 */
private Set stoptable = new HashSet();
/**
 * Contains words that should be indexed but not stemmed.
 */
private Set excltable = new HashSet<String>(Arrays.asList("C", "C++", "C#"));
private String[] exclListe = { "C", "C++", "C#" };

/**
 * Builds an analyzer with the default stop words ({@link #FRENCH_STOP_WORDS}).
 */
public CustomFrenchAnalyzer() {
    setStemExclusionTable(exclListe);
    stoptable = StopFilter.makeStopSet(FRENCH_STOP_WORDS);
}

/**
 * Builds an analyzer with the given stop words.
 */
public CustomFrenchAnalyzer(String[] stopwords) {
    stoptable = StopFilter.makeStopSet(stopwords);
}

/**
 * Builds an analyzer with the given stop words.
 * 
 * @throws IOException
 */
public CustomFrenchAnalyzer(File stopwords) throws IOException {
    stoptable = new HashSet(WordlistLoader.getWordSet(stopwords));
}

/**
 * Builds an exclusionlist from an array of Strings.
 */
public void setStemExclusionTable(String[] exclusionlist) {
    excltable = StopFilter.makeStopSet(exclusionlist);
}

/**
 * Builds an exclusionlist from the words contained in the given file.
 * 
 * @throws IOException
 */
/*
 * public void setStemExclusionTable(File exclusionlist) throws IOException { excltable = new HashSet(WordlistLoader.getWordSet(exclusionlist)); }
 */

/**
 * Creates a TokenStream which tokenizes all the text in the provided Reader.
 * 
 * @return A TokenStream build from a StandardTokenizer filtered with StandardFilter, StopFilter, FrenchStemFilter and LowerCaseFilter
 */
public final TokenStream tokenStream(String fieldName, Reader reader) {

    if (fieldName == null)
        throw new IllegalArgumentException("fieldName must not be null");
    if (reader == null)
        throw new IllegalArgumentException("reader must not be null");

    TokenStream result = new StandardTokenizer(reader);
    result = new StandardFilter(result);
    result = new StopFilter(result, stoptable);
    result = new FrenchStemFilter(result, excltable);
    // Convert to lowercase after stemming!
    result = new LowerCaseFilter(result);
    return result;
}
}

由于

为法语和程序语言选择好的分析器

2 个答案: