我发现我将Gensim与GoogleNews的预训练模型一起使用来对短语进行聚类是一种失败:
我被告知GoogleNews model does't have the phrases in it。我所用的短语是GoogleNews模型所特有的,而我没有用于训练新模型的语料库。我只有这些短语。现在我正在考虑求助于BERT。但是BERT可以像我上面期望的那样做吗?谢谢。
答案 0 :(得分:0)
您可以将短语输入到预训练的BERT模型中,并获得嵌入,即固定维度的矢量。因此,BERT可以将您的短语嵌入空格中。然后,您可以使用聚类算法(例如k-means)对短语进行聚类。短语不需要在BERT的训练语料中出现,只要它们组成的单词在词汇表中即可。您将不得不尝试查看嵌入是否为您提供了相关的结果。