应用错误收集

时间：2012-09-06 10:14:03

标签： machine-learning classification weka

我想用Weka对句子进行分类。我的功能是句子术语（单词）和每个术语的词性标记。我不知道数字属性如何，因为如果每个术语都作为一个特征呈现，则每个实例（句子）的特征数量变得不同。并且，如果句子中的所有单词都显示为一个特征，那么如何将单词与其POS标记相关联。

我应该如何处理？

答案 0 :(得分：1)

如果我正确地理解了这个问题，答案如下：最常见的是单独处理单词在句子中的位置，并用特征空间中的句子表示每个已知单词出现的次数。那句话。即对于训练数据中存在的每个单词，通常存在单独的数字特征。或者，如果您愿意使用n-gram，则为训练数据中的每个n-gram提供一个单独的功能（可能具有一些频率阈值）。

对于POS标签，将它们用作单独的功能可能是有意义的，但前提是您感兴趣的分类与句子结构（语法）有关。否则，您可能只想将POS标记附加到单词上，这可以部分消除那些可以代表不同词性的单词的歧义。