我想用Weka对句子进行分类。我的功能是句子术语(单词)和每个术语的词性标记。我不知道数字属性如何,因为如果每个术语都作为一个特征呈现,则每个实例(句子)的特征数量变得不同。并且,如果句子中的所有单词都显示为一个特征,那么如何将单词与其POS标记相关联。
我应该如何处理?
答案 0 :(得分:1)
如果我正确地理解了这个问题,答案如下:最常见的是单独处理单词在句子中的位置,并用特征空间中的句子表示每个已知单词出现的次数。那句话。即对于训练数据中存在的每个单词,通常存在单独的数字特征。或者,如果您愿意使用n-gram,则为训练数据中的每个n-gram提供一个单独的功能(可能具有一些频率阈值)。
对于POS标签,将它们用作单独的功能可能是有意义的,但前提是您感兴趣的分类与句子结构(语法)有关。否则,您可能只想将POS标记附加到单词上,这可以部分消除那些可以代表不同词性的单词的歧义。