我获得了一组网页,我需要构建一个页面推荐器。无论给应用程序的哪个URL,应用程序都应该能够找到给定池中与URL页面类似的页面。
我试着寻找不同的方法来做到这一点。 word2vec的使用让我感兴趣。我计划浏览所有给定的网页集,并根据该网页中的内容为该网页生成代码。从这些标签我希望使用word2vec来计算页面的矢量值并存储它。在搜索时,我会以类似的方式查找给定页面的向量以查找类似的值。这是使用word2vec的正确方法吗?应该使用什么训练矢量?还有其他更好的方法来完成这项任务吗?或者只是纯文本匹配会是更好的选择吗?
答案 0 :(得分:0)
我建议使用现有的IR开源来处理您的文档,即索引已抓取的网页并进行查询以获取结果。 您可以尝试使用elastic索引所有网页索引文档,并使用弹性文档中的more like this query进行查询:
更喜欢此查询(MLT查询)查找"喜欢"一组给定的文件