可比公司选择

时间:2017-06-16 19:52:35

标签: machine-learning neural-network nlp deep-learning

我已经解决了这个问题,让我解释一下。我想找到具有类似商业模式的公司,即他们做类似的事情。我已经搜索了各种方法来根据他们的业务描述来建模公司,以比较哪些公司最相似。到目前为止,我已经研究了利用神经网络的语义文本相似性(最后链接到论文)和其他nlp技术,尽管第一种看起来最有希望。

如果我有一份文件,每份文件都是公司的业务描述......

公司1:制造商在美国维护和维修卡车车身制造卡车车身......

公司2:为各行业提供服务台和保修保险管理服务公司还为消费电子产品和暖通空调暖通空调行业提供服务方案......

公司3:......

我有一家目标公司,我们会说......

公司T:从事识别潜在天然气和油井的评估和认证......

我想找出哪些公司的语料库与目标公司的商业模式最相似。

我可以采取哪些好方法来做这件事?

2 个答案:

答案 0 :(得分:0)

如何计算每个公司描述的TFIDF分数,然后计算目标公司的TFIDF分数。找到与目标公司类似的TFIDF成绩的公司。

答案 1 :(得分:0)

所采用技术的成功取决于多个问题。我不会争论其他方面的重要性,但我想到的三个方面如下:

  1. 您有多少描述或示例?您的数据集的异构程度如何?
  2. 这对模型的选择至关重要。例如,如果您对不同公司类型的数量有一个很好的猜测,您可以使用带有k个主题的LDA(Latent Dirichlet Allocation),其中k是您对类型数量的猜测。然后,您可以使用训练模型推断主题分布,并使用像Kullback-Leibler散度这样的分歧度量,找到类似的公司描述。 如果您对公司类型的数量一无所知,请尝试使用分层LDA,您无需指定主题数量。 在Java,R,python等中有很多LDA实现。 但是,如果您拥有高度异构的数据集且每种类型只有少量实例,则很可能无法正常工作。

    1. 您是否有预先设定的关键字集来区分公司类型?
    2. 如果是这样,您可以使用上述技术扩展您的关键字集,因为它会为您提供经常共存的术语集群。然后,您可以尝试一种简单的基于规则的方法,您只需计算常用术语的数量即可。 如果你没有这样的一套,那么Tomokiyo和Hurst的方法可以帮助你学习它们(链接到下面的论文)。但同样,您需要能够预先按主题拆分数据集。

      1. 标签
      2. 您是否通过手动标记某些描述尝试了监督方法?如果这太麻烦,您也可以查看主动学习模型。

        http://dl.acm.org/citation.cfm?id=1119287