标签: weka word-sense-disambiguation
我需要开发一个分类器,它在上下文中给出一个单词的实例(例如'hard'),它确定哪个句子来自一个用python NLTK分发的XML格式的文件。我发现Weka适合这种情况,但是,我在执行此操作所需的必要步骤中迷失了。
我假设以下步骤: 确定分类器要使用的相关特征,例如在实际单词“hard”之前考虑1个单词或2个单词。这可以通过Weka或Java实现吗?如果有Java的例子吗?因为我不知道如何为Weka做这件事。
然后我只使用Weka来获取结果并训练和测试文件?