机器学习示例 - 确定网站是商业还是个人

时间:2013-08-22 20:31:15

标签: web-crawler supervised-learning

我有机器学习问题。我获得了很长的域名列表,我必须弄清楚哪些是电子商务网站,哪些是个人网站。这是一个难题,因为我没有任何训练数据可供使用。我想出了几个想法:

  1. 手动浏览几百个这样的网站,告诉他们是商业还是个人,并以这种方式开发训练集(漫长而无聊!)。

  2. 抓取这些网站并搜索一些关键字,例如。 “立即购买”,“价格”,“信用卡”。等

  3. 有人有其他方法吗?

    由于

1 个答案:

答案 0 :(得分:2)

您可以自适应地修改关键字集:当您浏览时,可以将与现有关键字高度相关的单词添加到列表中。 彼得 附:我会将此添加为评论,但我没有足够的声誉点......