我有下表,其中包含json文件形式的数百万个文档数据:
+-------+---------------------------------------+------------+
| doc_id| doc_text | doc_lang |
+-------+---------------------------------------+------------+
| doc1 | "first /resource X 'title' " | en |
| doc2 | "<r>ressource 2 @titre en France" | Fr |
| doc3 | "die Tür geöffnet?" | ge |
| doc4 | "$risorsa 4 <in> lingua italiana" | It |
| ... | " ........." | .. |
| ... | "........." | .. |
+-------+---------------------------------------+------------+
我需要做以下事情:
问)如果Elasticsearch在这种情况下是一个不错的选择,有人可以建议我吗?
P.S。我正在寻找与Apache Spark兼容的东西。
答案 0 :(得分:0)
在索引
时,在doc_text字段中包含语言代码{ "doc_id": "doc", "doc_text_en": "xxx", "doc_lang": "en"}
然后,您将能够指定lang特定分析器的动态映射。
https://www.elastic.co/guide/en/elasticsearch/guide/current/custom-dynamic-mapping.html