我目前正在为一个学生项目制作机器学习模型,但我仍在决定应该使用哪种模型。这是给我的简介:
全球恐怖主义数据库(GTD)是一个开放源代码数据库,其中包含有关1970年至2014年世界各地恐怖事件的信息。某些攻击并未归因于特定的恐怖组织。 使用攻击类型,使用的武器,攻击的描述等来建立模型,以预测可能是由哪个团体负责事件。
数据框具有:
我倾向于使用反向传播神经网络,因为我相信它可以处理缺失的值,尽管考虑到我必须训练的时间有限,随机森林也可能是可行的。我已经对常见ML模型的各种利弊进行了大量研究,但是任何其他建议都将不胜感激。
答案 0 :(得分:2)
如果您尝试了几种候选方法并说明了它们为什么不够用,回答这个问题会更容易,但是这里是一个开始的地方...如果您无法使用计算机并且有人给了您这种方法表格并要求您定性地描述恐怖主义的运作方式,您可能会很快注意到,例如爱尔兰共和军不在阿富汗行动,只有ISIS参与了杀死1000多人的袭击(规定)。这种观察类似于随机森林如何分别处理分类数据和连续数据。
重点是,当试图定性描述此类数据背后的基本现实时,您的大脑会趋向于随机森林。 (可能会发生多次分裂……好吧,1991年之前美国没有恐怖主义活动,1991年之后,美国大多数恐怖袭击都涉及X,Y和Z组,依此类推。)这样的推论是,您将拥有关于您训练有素的随机森林告诉您的内容,失败的原因以及失败的原因,有很多要说的。
如果您使用神经网络,而又不了解它的工作原理的很多细节,您可能最终会无意识地进行调整,直到某些事情似乎起作用,并且不知道该说些什么,以适应各种情况或哪些功能可以提供信息。
为什么不使用随机森林,找出它在哪里起作用和不起作用,考虑这个结果,然后对此进行迭代?