我是Lucene的新手,所以,我在征求意见。
我的项目应该标记不同的化学物质(主要是有机物),以及其他词语。 在过去,我使用 StopAnalyzer 和停用词词典,但现在我不能这样做,因为它标记了非字母符号。 我找不到所有TokenFilter类型的描述,也不知道我该怎么做。 我正在考虑实现一个新的lucene Tokenize类并添加到该类OSCAR4 library,但是我不明白如何在我的类中使用公共标记器。
请指教。
文字示例:
本发明涉及新的结晶形式 4,4' - [4-氟-7 - ({4- [4-(3-氟-2-甲基苯基)丁氧基]苯基}乙炔基)-2-甲基-1H-吲哚-1,3-二基]二 酸(下文有时缩写为化合物I), 4,4' - [2-甲基7 - ({4- [4-(五氟苯基)丁氧基]苯基}乙炔基)-1H-吲哚-1,3-二基]二 酸(下文有时缩写为化合物II),和 4,4' - [4-氟-2-甲基-7 - ({4- [4-(2,3,4,6-四氟苯基)丁氧基]苯基}乙炔基)-1H-吲哚-1,3-二基]二 酸(下文有时缩写为化合物III)。