应用错误收集

我需要开发一个分类器，它在上下文中给出一个单词的实例（例如'hard'），它确定哪个句子来自一个用python NLTK分发的XML格式的文件。我发现Weka适合这种情况，但是，我在执行此操作所需的必要步骤中迷失了。

我假设以下步骤：确定分类器要使用的相关特征，例如在实际单词“hard”之前考虑1个单词或2个单词。这可以通过Weka或Java实现吗？如果有Java的例子吗？因为我不知道如何为Weka做这件事。

然后我只使用Weka来获取结果并训练和测试文件？