标签: web-scraping
在我们的数据库中,我有一个网站的HTML抓屏,并且我试图弄清楚如何对它们具有多少个不同的独特模板/页面进行分类。总是需要一些模糊匹配,但是我对如何解决这个问题不太了解。
一个例子可能是 - 主页 -清单页面 -产品页面
我要寻找的是,该脚本能够识别大约三个不同的模板,此时我们可以手动进入并对该页面进行分类。