LibShortText是一种用于短文本分类和分析的开源工具。 http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
我试图弄清楚它是否也适用于除英语之外的其他语言(例如德语)?但我没有找到提示。
谁知道答案?提前谢谢。
答案 0 :(得分:0)
我是这么认为的(但可能需要一些额外的预处理)。 Libsvm和Liblinear都与语言无关。由于LibShortText构建在LibLinear之上,因此它也适用于所有语言。
根据this论文,它有内部预处理方法来提取特征。
libshorttext.converter: For given short texts, LibShortText follows
the bag-of-word model to generate features. Users apply procedures in
this library to pre-process short texts by tokenization, stemming
(optional), and stop-word removal (optional). The library also allows
users to choose between unigram and bigram features.
然而,看起来它的词干和停止词删除只支持英语。因此,如果您希望为非英语文本提取更好的功能,则可能需要使用自己的预处理方法,例如,使用nltk。