solr纯文本标记化

时间:2015-11-19 10:56:15

标签: solr tokenize

我有一堆文本文件,只有颜色代码。频率是文件中给定颜色出现的次数。

000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 000009 00000b 00000b 00000b 00000c 00000c 00000c 00000c 00000e 00000e

我已经看到了这个http://www.slideshare.net/clbecker/lucene-revnov2014,我正试图让solr-part正确。我已经使用white-space-tokenizer定义了一个文件类型,并添加了该类型的字段。问题是我不知道如何导入文件。如何告诉solr(solr 5)使用该标记生成器提取内容?我想我可以把它变成一个结构化文件(csv),然后以标准方式进行 - 比如solr / update --data @csv-file。但对于这样一个简单的文件来说,这似乎有些过分。

1 个答案:

答案 0 :(得分:0)