我正在使用Mallet进行主题建模。输入文本中的大量单词包括字母和数字;例如,A54,D892。我只是注意到Mallet会自动删除数字,只保留字母中的字母。导入文本文件时,我甚至不使用--remove-stopwords选项。有谁知道如何解决这个问题。
答案 0 :(得分:0)
$('span.icon-user[data-userid='+this.userid+']').addClass('blahblah');
有一个选项bin/mallet import-dir
,可以决定接受什么作为单词的一部分。以下两个选项之一可能适合您的需求:--token-regex
接受任何字母和数字组合; [\p{L}\p{D}]+
接受以字母开头的字母数字字符串。