使用其他语言的LibShortText?

时间:2016-08-30 10:36:00

标签: text-classification text-analysis

LibShortText是一种用于短文本分类和分析的开源工具。 http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

我试图弄清楚它是否也适用于除英语之外的其他语言(例如德语)?但我没有找到提示。

谁知道答案?提前谢谢。

1 个答案:

答案 0 :(得分:0)

我是这么认为的(但可能需要一些额外的预处理)。 Libsvm和Liblinear都与语言无关。由于LibShortText构建在LibLinear之上,因此它也适用于所有语言。

根据this论文,它有内部预处理方法来提取特征。

libshorttext.converter: For given short texts, LibShortText follows 
the bag-of-word model to generate features. Users apply procedures in
this library to pre-process short texts by tokenization, stemming 
(optional), and stop-word removal (optional). The library also allows 
users to choose between unigram and bigram features.

然而,看起来它的词干和停止词删除只支持英语。因此,如果您希望为非英语文本提取更好的功能,则可能需要使用自己的预处理方法,例如,使用nltk