用Java构建/运行流式Weka文本分类器

时间:2011-08-27 07:26:02

标签: java nlp machine-learning classification weka

我们一直在使用Weka Explorer GUI来构建一些分类器模型。现在测试已经完成,我们希望在Java应用程序中实现此模型,以便它可以接收新消息。

因此,对于新消息,我们需要对消息进行标记化,将消息中的标记与用于构建模型的单词向量的标记进行匹配,然后将此单词向量解析为模型。

我们应该如何处理这个过程?有没有可用的例子?

我们如何处理新令牌(即新短信中出现的单词不是用于构建模型的单词向量的一部分)?

对于分类器预处理/标记,我们使用NGram Tokenizer,Stemmer和IDF Transform。因此,在根据我们要分类的文本创建新实例之前,我们需要弄清楚如何执行这些步骤。

作为一方当在资源管理器中构建分类器时,在更多选项下有一个按钮来选择“输出分类器代码”,听起来它输出Java源代码来构建和使用模型,但是此选项被禁用。测试了许多不同的分类器(RF,NB),它没有改变。我猜它没有实现这些?

干杯!

1 个答案:

答案 0 :(得分:1)

据我所知,当新的训练样本到达时,您需要重新训练weka分类器。我不知道Wekka中的在线分类算法。

PS。 Weka是基于Java的,因此您可以在应用程序中使用它的库。这是一个很好的例子:http://weka.wikispaces.com/Use+WEKA+in+your+Java+code