标签: python nlp pca word2vec word-embedding
假设您有一组与语义相关的单词(例如,餐馆,食物,菜肴,侍者),以及一些相对不相关的单词(例如,悲伤,生气,iphone)。您将如何找到这些“异常”的单词?
我正在使用单词向量(例如fasttext,g手套)来表示这些单词,在某种程度上有效的一种简单方法是根据向量与它们的均值的距离对向量进行排序。但这并不完美...
我已经考虑过使用PCA,但是不知道这是一个好方法还是不确定如何使用它来查找异常词。
非常感谢!