从网页池中查找与任何给定网页类似的网页

时间:2015-05-07 06:33:27

标签: nlp recommendation-engine word2vec

我获得了一组网页,我需要构建一个页面推荐器。无论给应用程序的哪个URL,应用程序都应该能够找到给定池中与URL页面类似的页面。

我试着寻找不同的方法来做到这一点。 word2vec的使用让我感兴趣。我计划浏览所有给定的网页集,并根据该网页中的内容为该网页生成代码。从这些标签我希望使用word2vec来计算页面的矢量值并存储它。在搜索时,我会以类似的方式查找给定页面的向量以查找类似的值。这是使用word2vec的正确方法吗?应该使用什么训练矢量?还有其他更好的方法来完成这项任务吗?或者只是纯文本匹配会是更好的选择吗?

1 个答案:

答案 0 :(得分:0)

我建议使用现有的IR开源来处理您的文档,即索引已抓取的网页并进行查询以获取结果。 您可以尝试使用elastic索引所有网页索引文档,并使用弹性文档中的more like this query进行查询:

  

更喜欢此查询(MLT查询)查找"喜欢"一组给定的文件