Weka StringToWordVector过滤器 - 用Java实现

时间:2015-03-23 16:39:20

标签: java text filter weka stop-words

我开始尝试使用Weka GUI应用程序来学习如何构建文本分类器,并使用GUI成功构建并保存了模型。

现在,我想在Java代码中实现分类器。 但我似乎无法像在GUI中那样设置StringToWordVector过滤器的停用词和标记器设置。 (见截图。)

enter image description here

(当然,没有将stopwords处理程序设置为NULL。)

我知道我可以将我创建并从GUI保存的模型加载到代码中。但我需要用Java实现过滤器。

我尝试在此处使用代码:Different results in Weka GUI and Weka via Java code 主要是这部分(当然,改变路径后):

 String opt = "-W -P 0 -M 5.0 -norm 1.0 -lnorm 2.0 -lowercase -stoplist -        stopwords C:\\Users\\Fernando\\workspace\\GPCommentsAnalyzer\\pt-br_stopwords.dat -tokenizer \"weka.core.tokenizers.NGramTokenizer -delimiters ' \\r\\n\\t.,;:\\\'\\\"()?!\' -max 2 -min 1\" -stemmer weka.core.stemmers.NullStemmer";

但是,它仍然无法发挥作用。

我无法在任何地方找到有关此主题的任何文档。任何帮助将不胜感激!

(我使用的是Weka版本3.7.12)

1 个答案:

答案 0 :(得分:1)

使用GUI设置配置,然后在上下文菜单中使用copy configuration to clipboard选项。

Copy config to clipboard