我正在建立电子商务网站
问题陈述:
我想将网页抓取到get product name, images and product specifications/features
并将其存储在我的database
输入机器学习算法:
包含html内容的网页
机器学习算法的预期输出:
它应该自动检测是否是产品详细信息页面
如果是产品详细信息页面,则应识别产品类别
然后它应解析产品名称,规格
问题
哪种算法适用于此问题陈述?
有人可以提出适当的方法吗?
答案 0 :(得分:1)
我不是机器学习/自然语言处理方面的专家,但我的直觉是说完全实现这个作为ML产品非常困难。 首先看看您的目标eCommercise站点是否提供某种API来提取数据。如果可以使用这些API,那么使用它们比使用ML更容易。