我试图使用机器学习将一些事件归类为真阳性和假阳性。
我有一个事件数据集,其中每列都描述了事件的属性。并且有一个与每个事件相关的警报列表。 警报列表可以包含0-10个警报,每个警报行都包含该警报的详细信息。即事件和警报之间存在一对多的关系。
我有一些分类简单数据集的经验,这些数据集的每一行都有一组列,但我不知道如何处理这样的关系数据。
我正在使用scikit-为此学习。
答案 0 :(得分:1)
据我所知,您的数据如下:
incident table:
id | i_attr0 | alerts
0 | foo | [alert0, alert1]
...
alert table:
id | a_attr0
alert0 | bar
alert1 | baz
...
如果是这种情况,我会将表反规范化为:
incident-alert table:
id | i_attr0 | alert0 | alert0_a_attr0 | alert1 | alert1_a_attr0 | etc..
0 | foo | true | bar | true | baz |
然后从那里开始工作。