如何基于布局对网页进行聚类

时间:2018-02-25 09:32:31

标签: javascript xpath google-chrome-extension cluster-analysis web-deployment

我想将购物网站中的网页分组为类别页面,子类别页面和产品页面。

我开发了一个chrome扩展程序,可以打开购物网站的一些网页,并在每个页面上提出几个问题来生成类别,子类别和产品xpath。它还会在即将到来的页面上评估生成的xpath,并根据结果将它们聚合到相应的组中,并跳过这些页面上的问题。

但它并没有像预期的那样运作良好。考虑一个拥有一些纯产品页面和一些子类别+产品页面的网站。如果该工具最初打开一个纯产品页面并根据用户输入生成产品xpath,它会将即将发布的子类别+产品页面识别为产品页面,因为产品xpath也在此页面上工作。它错过了子类别页面。

是否有基于布局或模板来区分网页?

1 个答案:

答案 0 :(得分:0)

选择不会产生误报的Xpath。

不,我不认为在不知道页面的情况下实现自动化是微不足道的。所以我们帮不了你。