如何将Lucene WikipediaTokenizer用于非英语语言?

时间:2013-06-03 14:40:29

标签: parsing lucene wikipedia

我正在解析荷兰语WikiPedia,它包含以下类别标记:

[Categorie:Nederlands beeldhouwer]]

但是英语维基百科使用以下标记:

[[Category:Japanese diplomats]]

标记(分类/类别)因此取决于语言。是否可以将Lucene WikipediaTokenizer用于非英语维基?如果可能,怎么样?

1 个答案:

答案 0 :(得分:0)

我认为维基百科标记依赖于语言,API结果也因语言而异。

根据http://www.mediawiki.org/wiki/API我对同一查询进行了快速实验,并为http://en.wikipedia.org/w/api.phphttp://nl.wikipedia.org/w/api.php

获得了不同的结果

LuceneWikipediaTokenizer是StandardTokenizer的扩展,因此它应该支持并索引所有语言。