文字内容相关性检查

时间:2018-11-03 04:07:19

标签: machine-learning nlp topic-modeling

Amazon.in pic

我需要检查特定网页上内容的相关性。我有成千上万   网页以对此进行检查。检查页面标题是否与页面内容相关的最佳方法是什么。

1 个答案:

答案 0 :(得分:1)

当您说:

时,您的问题有点含糊
  

检查页面标题是否与网页标题相关的最佳方法是什么   页面上的内容。

如何根据您的问题定义相关性?

我不知道这是不是您想要的,但我想到了几件事,它实际上是在比较两个文档的相似程度,一个是文档的标题,另一个是说明。

您可以考虑为两者生成矢量表示并比较它们相似程度的方法。

  1. 使用令牌作为两个集合(即文档)的元素的电子贺卡相似性
  2. TF-IDF加权向量,并将它们与余弦相似度进行比较
  3. 为每个文档计算分发主题模型/ LDA,并使用Kullback-Leibler散度进行比较
  4. 将文档编码为某种密集的矢量(doc2vec,或通过LSTM读取它们并保持最后一个状态),然后比较两个矢量。

唯一需要考虑的是,与网页内容相比,标题的大小很小。