智能网络爬虫使用机器学习

时间:2016-07-20 07:13:56

标签: text-mining named-entity-recognition

我正在建立电子商务网站

问题陈述

我想将网页抓取到get product name, images and product specifications/features并将其存储在我的database

输入机器学习算法

包含html内容的网页

机器学习算法的预期输出

  • 它应该自动检测是否是产品详细信息页面

  • 如果是产品详细信息页面,则应识别产品类别

  • 然后它应解析产品名称,规格

问题

哪种算法适用于此问题陈述?

有人可以提出适当的方法吗?

1 个答案:

答案 0 :(得分:1)

我不是机器学习/自然语言处理方面的专家,但我的直觉是说完全实现这个作为ML产品非常困难。 首先看看您的目标eCommercise站点是否提供某种API来提取数据。如果可以使用这些API,那么使用它们比使用ML更容易。