无监督学习,不同技术和查询

时间:2019-04-14 23:58:23

标签: cluster-analysis data-mining topic-modeling unsupervised-learning doc2vec

我必须根据数据进行预测,哪个灾难管理团队应该对事故做出响应-警察/救援/消防队/救护车等。

问题有多个部分-

  1. 唯一ID-(数字的组合)

  2. 每个ID的多个句子的文本数据

      

    ex:造成的损坏是由于冰雹造成的。人们不是   遵循救援指示,并且粗心。伤害很高。   -共有50k个带有文字的不同ID

  3. 几个结构化数据字段-例如位置,类型,严重性等-总共400个变量

解决问题的方法:

  1. 获取文本数据和ID并计算出TFIDF,余弦相似度,Doc2Vec,主题模型

现在,我必须合并结构化数据和非结构化数据以构成集群。由于这是一种无监督的学习,因此不确定如何将所有内容结合在一起以使数据有意义。

我总共有-400个变量,来自TFIDF的10000分,但是我是:

  • 不确定如何将余弦相似度与数据帧连接
  • 不确定如何将Doc2Vec用于群集
  • 不确定如何使用主题模型

最终目标-创建一个可以研究的集群,以区分如果ID包含某些关键字,则应将其分配给特定的管理团队-例如:盗窃/谋杀/抢劫-全部应该是一个集群,我可以将警方与该集群

0 个答案:

没有答案