web-scraping - Web抓取：使用链接或面包屑分配产品类别？ - Thinbug

Web抓取：使用链接或面包屑分配产品类别？

时间：2018-09-04 20:59:32

标签： web-scraping scrapy

我们需要从一些网站获取数据，并为每种产品分配类别。

当前，我们正在考虑2种选择：

1。将网址映射到我们的类别。

例如：

从映射所有内容 https://www.newegg.com/Cell-Phones-Unlocked/SubCategory/ID-2961

和 https://www.gearbest.com/chinese-smartphone-_gear/c_11293/ 到手机类别

2。将面包屑（或在产品页面上找到的其他可用数据）映射到我们的类别。

我目前选择选项1，因为：

我相信后端的更改频率不如前端。
某些网站没有面包屑。
我们已经可以使用由人类进行的类别分配。无需关键字匹配和计算匹配百分比。

这些情况下是否有最佳实践？

我们不尝试从示例中解析网站。网站不是英语，所以我怀疑依赖英语的图书馆是否可以工作。

0 个答案:

没有答案