如何计算分面导航URL的爬行空间

时间:2012-11-28 05:34:59

标签: combinatorics discrete-mathematics faceted-search layered-navigation

我们的电子商务网站使用搜索引擎可抓取的分面导航链接。根据谷歌网站管理员工具,googlebot已爬行,但选择不选择,成千上万的网址,我们只有约1500个产品。 Googlebot似乎在我们的分面导航所提供的巨大爬行空间中迷失了方向。如何使用分面导航计算可能的唯一网址数?

例如,在一个类别页面上,我们有6个不同的属性,总共有51个可能的值。

attributeA有2个可选值
attributeB有7个可选值
attributeC有7个可选值
attributeD有4个可选值
attributeE有4个可选值
attributeF有27个可选值

每个值选择都会向网址添加参数和值。有多少可能的网址,因为没有属性是多重选择(即,如果选择了来自attributeB的值,则无法向其添加另一个attributeB值),并且url参数始终按字母顺序排列

我想要一个公式化的答案,以便我可以计算每个类别页面的抓取空间。

1 个答案:

答案 0 :(得分:1)

如果必须从每个属性中选择至少一个选项,则有42,636种可能的组合,如果每个属性都可以留空,则有134,400个。

这可以通过将每个属性的可用选择量相乘得到:第一种情况下可选值的数量,以及后者中可选值+ 1(对于空值)的数量。

后者似乎与googlebot访问过的网址数量相当。