找出网站中使用的各种布局

时间:2012-04-05 08:55:57

标签: html-parsing

是否可以找出网站中使用的总布局数(模板)。 例如:- 假设我想知道www.flipkart.com使用多少种类型的布局。 答案如下: -

  1. 目标网页或主页
  2. 类别页面,例如http://www.flipkart.com/mobiles?_l=GIuT6NCRsZbfL9ID9ZKHNQ--&_r=hCno5y6eFUI8C0iWzaQbAg--&ref=cef19a11-4ebc-4f8e-a0dc-401c2d55de3e&_pop=brdcrumb 这是一个类别页面。所有这些页面都具有相同的布局,只有内部内容会有所不同。
  3. http://www.flipkart.com/htc-sensation-mobile-phone/p/itmczbrsnwphgbnw?pid=MOBCYW9HXBUDYJPH&_l=sXQjsX87GxqrvKzhjuOrkw--&_r=n_2yuAC4xgh0SZTuulvAtw--&ref=9305103f-6fc1-497c-807a-8f30ee30c13c等产品页面是产品页面。 所有产品页面都具有相同的布局,就像他们现在购买选项一样。将有多个图像。那么有没有现成的工具可以找到它。
  4. 我希望我的问题清楚。我只是想将网站页面分类为一些桶。

1 个答案:

答案 0 :(得分:0)

根据我的知识,我认为现在不存在某种工具或算法,但是你可以写一些。尝试找出这些页面的一些属性并将其设置为基准。现在,无论何时遇到网址并想要识别其类别,只需再次找出属性并与基准集进行比较。 它虽然不通用,但适用于特定网站:)