我可以使用BERT对具有预训练模型的短语进行聚类吗

时间:2019-08-13 10:30:07

标签: tensorflow nlp pytorch gensim word2vec

我发现我将Gensim与GoogleNews的预训练模型一起使用来对短语进行聚类是一种失败:

  • 编织
  • 织机
  • 织机
  • 织布机
  • 彩虹织机
  • 家居装饰配件
  • 织机/织机
  • ...

我被告知GoogleNews model does't have the phrases in it。我所用的短语是GoogleNews模型所特有的,而我没有用于训练新模型的语料库。我只有这些短语。现在我正在考虑求助于BERT。但是BERT可以像我上面期望的那样做吗?谢谢。

1 个答案:

答案 0 :(得分:0)

您可以将短语输入到预训练的BERT模型中,并获得嵌入,即固定维度的矢量。因此,BERT可以将您的短语嵌入空格中。然后,您可以使用聚类算法(例如k-means)对短语进行聚类。短语不需要在BERT的训练语料中出现,只要它们组成的单词在词汇表中即可。您将不得不尝试查看嵌入是否为您提供了相关的结果。