如何在机器学习分类中处理关系数据?

时间:2016-10-26 10:04:00

标签: machine-learning

我试图使用机器学习将一些事件归类为真阳性和假阳性。

我有一个事件数据集,其中每列都描述了事件的属性。并且有一个与每个事件相关的警报列表。 警报列表可以包含0-10个警报,每个警报行都包含该警报的详细信息。即事件和警报之间存在一对多的关系。

我有一些分类简单数据集的经验,这些数据集的每一行都有一组列,但我不知道如何处理这样的关系数据。

我正在使用scikit-为此学习。

1 个答案:

答案 0 :(得分:1)

据我所知,您的数据如下:

incident table:
id | i_attr0 | alerts
0  | foo     | [alert0, alert1]
...

alert table:
id     | a_attr0
alert0 | bar
alert1 | baz
...

如果是这种情况,我会将表反规范化为:

incident-alert table:
id | i_attr0 | alert0 | alert0_a_attr0 | alert1 | alert1_a_attr0 | etc..
0  | foo     | true   | bar            | true   | baz            | 

然后从那里开始工作。