机器学习将公司名称分类到他们的行业

时间:2017-07-13 01:49:55

标签: python machine-learning text-classification multilabel-classification

我要做的是要求用户输入公司名称,例如Microsoft,并且能够预测它在计算机软件行业中。我有大约15万个名字和60多个行业。有些名字不是英文公司名称。

我曾尝试使用Gensim仅根据公司名称训练Word2Vec模型,并在将其输入SKlearn的逻辑回归之前对单词向量进行平均,但结果却很糟糕。我的问题是:

  1. 有没有人尝试过这类任务?谷歌搜索短文本分类显示我对短句而不是纯名称进行分类的结果。如果有人之前尝试过此操作,请介意分享一些关于此任务的关键词或研究论文吗?

  2. 如果我对每家公司进行简要描述而不仅仅使用他们的名字会更好吗?对我的Word2Vec模型有多大帮助,而不仅仅使用公司名称?

2 个答案:

答案 0 :(得分:2)

对于您的问题,这只是公司 - 行业关系,所以为此,您必须使用公司描述数据训练您的word2vec model,因为word2vec用于计算与给定单词相关的相似单词。所以如果你根据公司名称进行培训会给你带来不好的结果。如果你对描述进行培训,那么就会给你与特定行业相关的类似词语。通过使用它,你可以得到它所属的行业。

如果您想根据公司名称进行培训,NER(命名实体标签)将非常有用。但这不准确。

答案 1 :(得分:0)

不确定你想要什么。

如果关键是只使用公司名称,可能会将名称分为音节/音素,并训练该数据。

如果重点是使用Word2Vec,我建议为每家公司提取维基百科页面(比“关于我”更容易自动化)。