什么是适当的lucene分析仪使用?

时间:2012-02-15 08:33:43

标签: java lucene standardanalyzer

我在使用数字和符号索引项目名称时遇到问题。我的数据样本如下所示:

ANGLE BARS   ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING     2" X 3"
B.I. PIPE S-40   10MM 3/8"
B.I SQUARE TUBING     1" X 2"
PLYWOOD   MARINE 3/4X4X8
PLYWOOD   STA. CLARA 1/8X4X8
PLYWOOD   STA. CLARA 3/16X4X8

我想在白色或尾随空格中标记我的数据而不丢弃符号,因为这些符号非常重要。因此,每当我搜索“胶合板sta.clara”,“b.i square 2”X 3“”或“angle orange 2 - 1/2”将给我一个结果。我试图使用空白分析器,但符号被删除。我也试过标准分析仪,但也停止了单词和符号。什么是最好的分析仪呢?

2 个答案:

答案 0 :(得分:3)

您可以通过编写正则表达式来使用PatternAnalyzer或创建Custom Analyzer.

答案 1 :(得分:0)

尝试使用org.apache.lucene.analysis.miscellaneous.PatternAnalyzer。您可以提供正则表达式来定义标记分隔符。