Question

我试图使用机器学习将一些事件归类为真阳性和假阳性。

我有一个事件数据集，其中每列都描述了事件的属性。并且有一个与每个事件相关的警报列表。警报列表可以包含0-10个警报，每个警报行都包含该警报的详细信息。即事件和警报之间存在一对多的关系。

我有一些分类简单数据集的经验，这些数据集的每一行都有一组列，但我不知道如何处理这样的关系数据。

我正在使用scikit-为此学习。

Answer 1

据我所知，您的数据如下：

incident table:
id | i_attr0 | alerts
0  | foo     | [alert0, alert1]
...

alert table:
id     | a_attr0
alert0 | bar
alert1 | baz
...

如果是这种情况，我会将表反规范化为：

incident-alert table:
id | i_attr0 | alert0 | alert0_a_attr0 | alert1 | alert1_a_attr0 | etc..
0  | foo     | true   | bar            | true   | baz            |

然后从那里开始工作。

如何在机器学习分类中处理关系数据？

1 个答案: