我们一直在使用Weka Explorer GUI来构建一些分类器模型。现在测试已经完成,我们希望在Java应用程序中实现此模型,以便它可以接收新消息。
因此,对于新消息,我们需要对消息进行标记化,将消息中的标记与用于构建模型的单词向量的标记进行匹配,然后将此单词向量解析为模型。
我们应该如何处理这个过程?有没有可用的例子?
我们如何处理新令牌(即新短信中出现的单词不是用于构建模型的单词向量的一部分)?
对于分类器预处理/标记,我们使用NGram Tokenizer,Stemmer和IDF Transform。因此,在根据我们要分类的文本创建新实例之前,我们需要弄清楚如何执行这些步骤。
作为一方当在资源管理器中构建分类器时,在更多选项下有一个按钮来选择“输出分类器代码”,听起来它输出Java源代码来构建和使用模型,但是此选项被禁用。测试了许多不同的分类器(RF,NB),它没有改变。我猜它没有实现这些?
干杯!
答案 0 :(得分:1)
据我所知,当新的训练样本到达时,您需要重新训练weka分类器。我不知道Wekka中的在线分类算法。
PS。 Weka是基于Java的,因此您可以在应用程序中使用它的库。这是一个很好的例子:http://weka.wikispaces.com/Use+WEKA+in+your+Java+code。