在特征向量中包含单词的位置信息的好方法是什么?

时间:2013-02-25 10:22:42

标签: machine-learning nlp feature-extraction

我觉得一揽子单词对我的任务来说太简单了。我想要一些在特征向量中包含单词的位置信息。例如,“好”是结尾的第二个等等。

1 个答案:

答案 0 :(得分:1)

在大多数情况下,我们使用双字母或三字母作为特征:它包含句子中的大部分单词顺序信息,而不是每个单词的位置信息稀疏。

例如对于句子the cat ate the mouse,三元组特征将是:

<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.

您也可以保留现有的BOW功能。

此外,如果您使用判别模型,则可以添加任何与您的任务相关的功能,即使此功能与您现有的功能无关。

显然,目标始终是在信息和稀疏性之间找到适当的平衡......这取决于你的数据集,你必须进行实验!