使用elasticsearch生成标记化的逻辑术语

时间:2013-09-21 19:23:20

标签: elasticsearch tokenize full-text-indexing

我想将以下记录(关键字行在数据库表的一列中)拆分为用于构建构面搜索的逻辑术语:

Ballett, Fernsehen, Film, Sachbücher/Musik, Film, Theater/Theater, Ballett/Allgemeines, Nachschlagewerke, Theater, Bühnenbildner (Einz.), Deutsches Theatermuseum München, München; Museen, Stepanek, Siegfried, Deutsches Theatermuseum; Kategorien - Lexika & Nachschlagen - Brockhaus, Kinder- & Jugendbücher, Jugendbücher

结果应为:

Ballett
Fernsehen
Film
Sachbücher/Musik
Film
Theater/Theater
Ballett/Allgemeines
Nachschlagewerke
Theater
Bühnenbildner (Einz.)
Deutsches Theatermuseum München
München
Museen
Stepanek
Siegfried
Deutsches Theatermuseum
Kategorien
Lexika & Nachschlagen
Brockhaus
Kinder- & Jugendbücher
Jugendbücher

我尝试过不同的东西,但是我没有找到解决方法如何正确分割标记化的长记录。是否可以使用Pattern Tokenizer?

感谢提示

0 个答案:

没有答案