我想在Elasticsearch中使用synonym
tokenfilter作为索引。我下载了Prolog版本的WordNet 3.0,找到了Elasticsearch可以理解的wn_s.pl
文件。但是,似乎该文件包含各种单词和短语的同义词,而我真的只对支持名词的同义词感兴趣。有没有办法提取这些类型的条目?
答案 0 :(得分:8)
鉴于wn_s.pl
的格式为
s(112947045,1,'usance',n,1,0).
s(200001742,1,'breathe',v,1,25).
一种非常原始的方法是在终端中执行以下操作,只从该文件中获取具有',n'字符串的行。
grep ",n," wn_s.pl > wn_s_nouns_only.pl
文件wn_s_nouns_only.pl
只会包含标记为名词的条目。