我觉得一揽子单词对我的任务来说太简单了。我想要一些在特征向量中包含单词的位置信息。例如,“好”是结尾的第二个等等。
答案 0 :(得分:1)
在大多数情况下,我们使用双字母或三字母作为特征:它包含句子中的大部分单词顺序信息,而不是每个单词的位置信息稀疏。
例如对于句子the cat ate the mouse
,三元组特征将是:
<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.
您也可以保留现有的BOW功能。
此外,如果您使用判别模型,则可以添加任何与您的任务相关的功能,即使此功能与您现有的功能无关。
显然,目标始终是在信息和稀疏性之间找到适当的平衡......这取决于你的数据集,你必须进行实验!