对网站业务领域进行分类

时间:2016-05-14 21:21:45

标签: python machine-learning nlp classification

我想确定该网站所属的商家的类别/商家域名。

对于前。超人网站。该公司制作的电子邮件客户端由流行语功能和UI。

因此,简而言之,网站类别可以是专业电子邮件服务

因此,为了完成这项工作,我的一些首字母的想法是在网站的About_us文本上应用LDA算法(python模块)。公司的Facebook信息页面,因为我们有这两者。但在许多情况下,这种方法仍然无效。任何见解?

LDA详情: 使用20000次传递和1个主题,http://aakritiartgallery.com/网站的结果为

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]

我如何利用LDA给出的这些术语概率缩小我的业务范围?

2 个答案:

答案 0 :(得分:1)

@ Anony-Mousse说得很好,这将有助于制定一个路线计划,而不是固定在一个算法上。鉴于你的情况,这就是我要做的。

预处理/特征提取

NMF,LSA,LDA是无监督技术,主要用于预处理以提取意义特征。在NLP中,这通常对应于在大量文本中提取有意义的单词。通过使用这些技术,您将能够处理原始数据以获得有意义的功能。这些算法本身并不提供预测,它们通常不足以创建一个好的模型。

培训

在您的情况下,您需要结构化数据来训练模型并进行预测。例如,您可以使用映射到业务域(或您的标签)的LDA结果(您实际上会使用这些关键字的索引)。

即) (标签)IT :(功能)java,python,server (标签)动物园:(特征)猴子,斑马,长颈鹿 (标签)IT :(功能)nlp,机器学习

收集完一些数据后(至少(#features * #label)),您可以训练您选择的监督模型。 (Log Reg,SVM,NN等)

测试

评估您的预测分数并实施算法。

说完这个,这不是一件容易的事。你将不得不处理识别类别/子类别,提取有意义的功能的其他方法等,所以我会在这个项目上花很长时间。祝你好运!

答案 1 :(得分:0)

  1. 获取培训数据
  2. 训练分类器
  3. 分类<!/ LI>