应用错误收集

我们一直在使用Weka Explorer GUI来构建一些分类器模型。现在测试已经完成，我们希望在Java应用程序中实现此模型，以便它可以接收新消息。

因此，对于新消息，我们需要对消息进行标记化，将消息中的标记与用于构建模型的单词向量的标记进行匹配，然后将此单词向量解析为模型。

我们应该如何处理这个过程？有没有可用的例子？

我们如何处理新令牌（即新短信中出现的单词不是用于构建模型的单词向量的一部分）？

对于分类器预处理/标记，我们使用NGram Tokenizer，Stemmer和IDF Transform。因此，在根据我们要分类的文本创建新实例之前，我们需要弄清楚如何执行这些步骤。

作为一方当在资源管理器中构建分类器时，在更多选项下有一个按钮来选择“输出分类器代码”，听起来它输出Java源代码来构建和使用模型，但是此选项被禁用。测试了许多不同的分类器（RF，NB），它没有改变。我猜它没有实现这些？

干杯！