我们需要从一些网站获取数据,并为每种产品分配类别。
当前,我们正在考虑2种选择:
1。将网址映射到我们的类别。
例如:
从映射所有内容 https://www.newegg.com/Cell-Phones-Unlocked/SubCategory/ID-2961
和 https://www.gearbest.com/chinese-smartphone-_gear/c_11293/ 到手机类别
2。将面包屑(或在产品页面上找到的其他可用数据)映射到我们的类别。
我目前选择选项1,因为:
这些情况下是否有最佳实践?
我们不尝试从示例中解析网站。网站不是英语,所以我怀疑依赖英语的图书馆是否可以工作。