Mallet中的不同语言

时间:2018-02-13 18:11:54

标签: mallet

我想在维基百科上使用Mallet文章,包括英语,西班牙语,德语,法语,俄语和印地语。它似乎在前五种语言上运行良好,但不是印地语。结果产生印地语没有元音或联合辅音。有没有人有任何建议?

另外,是否有其他语言的停用词库?

由于

1 个答案:

答案 0 :(得分:1)

您需要修改令牌正则表达式。默认正则表达式查找Unicode字母字符组,可能包括标点符号(例如多字)。这些是Java正则表达式中的\p{L}\p{P}

南亚脚本通常包含Unicode“标记”字符,在正则表达式中为\p{M}。以下是使用韩语的印地语维基百科文章的例子:

$ bin/mallet import-file --input hindi.txt --print-output
name: 1
target: Hindi
input: 대한민국(0)=1.0
大韩民国(1)=1.0
सबस(2)=3.0
नगर(3)=2.0
लगत(4)=1.0
एकम(5)=1.0
सकल(6)=2.0
रहव(7)=2.0
यवस(8)=1.0
ययन(9)=1.0
करन(10)=1.0
eps(11)=1.0
करत(12)=1.0

$ bin/mallet import-file --input hindi.txt --print-output --token-regex '[\p{L}\p{M}]+'
name: 1
target: Hindi
input: दक्षिण(0)=4.0
कोरिया(1)=7.0
कोरियाई(2)=4.0
대한민국(3)=1.0
देहान्(4)=1.0
मिन्गुक(5)=1.0
大韩民国(6)=1.0
हंजा(7)=2.0
पूर्वी(8)=1.0
एशिया(9)=2.0
में(10)=7.0
स्थित(11)=2.0
एक(12)=4.0
देश(13)=6.0
...

目前没有印地语的停留表。寻找在超过10%的文档中至少出现过一次的单词将是一个合理的开始。