处理stanford分类器中的同义词

时间:2014-09-15 15:51:35

标签: nlp stanford-nlp

是否有可能在stanford分类器中处理一组单词模型中的同义词或其他特定的两个或多个单词被视为单个特征?

例如: 我希望能够并且可以被视为一个单一的功能。

1 个答案:

答案 0 :(得分:1)

我不完全理解你的问题。请更具体地说明您要分类的内容。

但通常,您可以在将输入提供给任何分类器之前始终对其进行转换。即取代"嘿,我可以帮你吗?用" X,Y我帮你"其中X是组的占位符{hi,嘿,hello,...}。

这些群组有时被称为" synsets",例如在WordNet中(http://wordnet.princeton.edu/)。这是"你好"的同义词。在WordNet中:[1]如果这有用,那就有用于访问WordNet的API。

您当然也可以手动创建这些单词组。请记住,虽然有很多暧昧的词语,但是分配其中一个群体非常困难。

[1] http://wordnetweb.princeton.edu/perl/webwn?s=hello&sub=Search+WordNet&o2=&o0=1&o8=1&o1=1&o7=&o5=&o9=&o6=&o3=&o4=&h=