我有机器学习问题。我获得了很长的域名列表,我必须弄清楚哪些是电子商务网站,哪些是个人网站。这是一个难题,因为我没有任何训练数据可供使用。我想出了几个想法:
手动浏览几百个这样的网站,告诉他们是商业还是个人,并以这种方式开发训练集(漫长而无聊!)。
抓取这些网站并搜索一些关键字,例如。 “立即购买”,“价格”,“信用卡”。等
有人有其他方法吗?
由于
答案 0 :(得分:2)
您可以自适应地修改关键字集:当您浏览时,可以将与现有关键字高度相关的单词添加到列表中。 彼得 附:我会将此添加为评论,但我没有足够的声誉点......