我必须根据数据进行预测,哪个灾难管理团队应该对事故做出响应-警察/救援/消防队/救护车等。
问题有多个部分-
唯一ID-(数字的组合)
每个ID的多个句子的文本数据
ex:造成的损坏是由于冰雹造成的。人们不是 遵循救援指示,并且粗心。伤害很高。 -共有50k个带有文字的不同ID
几个结构化数据字段-例如位置,类型,严重性等-总共400个变量
解决问题的方法:
现在,我必须合并结构化数据和非结构化数据以构成集群。由于这是一种无监督的学习,因此不确定如何将所有内容结合在一起以使数据有意义。
我总共有-400个变量,来自TFIDF的10000分,但是我是:
最终目标-创建一个可以研究的集群,以区分如果ID包含某些关键字,则应将其分配给特定的管理团队-例如:盗窃/谋杀/抢劫-全部应该是一个集群,我可以将警方与该集群