应用错误收集

无监督学习，不同技术和查询

时间：2019-04-14 23:58:23

标签： cluster-analysis data-mining topic-modeling unsupervised-learning doc2vec

我必须根据数据进行预测，哪个灾难管理团队应该对事故做出响应-警察/救援/消防队/救护车等。

问题有多个部分-

唯一ID-（数字的组合）
每个ID的多个句子的文本数据

ex：造成的损坏是由于冰雹造成的。人们不是遵循救援指示，并且粗心。伤害很高。 -共有50k个带有文字的不同ID
几个结构化数据字段-例如位置，类型，严重性等-总共400个变量

解决问题的方法：

获取文本数据和ID并计算出TFIDF，余弦相似度，Doc2Vec，主题模型

现在，我必须合并结构化数据和非结构化数据以构成集群。由于这是一种无监督的学习，因此不确定如何将所有内容结合在一起以使数据有意义。

我总共有-400个变量，来自TFIDF的10000分，但是我是：

不确定如何将余弦相似度与数据帧连接
不确定如何将Doc2Vec用于群集
不确定如何使用主题模型

最终目标-创建一个可以研究的集群，以区分如果ID包含某些关键字，则应将其分配给特定的管理团队-例如：盗窃/谋杀/抢劫-全部应该是一个集群，我可以将警方与该集群

0 个答案:

没有答案