Web抓取:使用链接或面包屑分配产品类别?

时间:2018-09-04 20:59:32

标签: web-scraping scrapy

我们需要从一些网站获取数据,并为每种产品分配类别。

当前,我们正在考虑2种选择:

1。将网址映射到我们的类别。

例如:

从映射所有内容 https://www.newegg.com/Cell-Phones-Unlocked/SubCategory/ID-2961

https://www.gearbest.com/chinese-smartphone-_gear/c_11293/ 到手机类别

2。将面包屑(或在产品页面上找到的其他可用数据)映射到我们的类别。

我目前选择选项1,因为:

  • 我相信后端的更改频率不如前端。
  • 某些网站没有面包屑。
  • 我们已经可以使用由人类进行的类别分配。无需关键字匹配和计算匹配百分比。

这些情况下是否有最佳实践?

我们不尝试从示例中解析网站。网站不是英语,所以我怀疑依赖英语的图书馆是否可以工作。

0 个答案:

没有答案