我正在解析荷兰语WikiPedia,它包含以下类别标记:
[Categorie:Nederlands beeldhouwer]]
但是英语维基百科使用以下标记:
[[Category:Japanese diplomats]]
标记(分类/类别)因此取决于语言。是否可以将Lucene WikipediaTokenizer用于非英语维基?如果可能,怎么样?
答案 0 :(得分:0)
我认为维基百科标记依赖于语言,API结果也因语言而异。
根据http://www.mediawiki.org/wiki/API我对同一查询进行了快速实验,并为http://en.wikipedia.org/w/api.php和http://nl.wikipedia.org/w/api.php
获得了不同的结果LuceneWikipediaTokenizer是StandardTokenizer的扩展,因此它应该支持并索引所有语言。