应用错误收集

只有一个输出时的数据不平衡

时间：2019-07-01 11:41:30

标签： keras lstm

我有3％标记为“是”和97％标记为“否”的数据。这是一个连续的数据流，所以我认为我不能强行复制yes数据。我正在使用LSTM，其中输出是1表示是，输出0表示否。另外，我认为我无法挖掘更多数据。我发现了有关班级重量的一些知识，但我不知道如何在这种情况下实现。还有其他方法可以解决此问题吗？数据是连续的数字。

1 个答案:

答案 0 :(得分：0)

您可以采用两种解决方案。

第一个方法是建立一个数据生成器，该数据生成器将生成批次，以选择均衡数量的样本。例如，您可以构建一个python生成器，该生成器将生成32个样本的批次，以便从集合“是”中随机抽取16个样本，从集合“否”中随机抽取16个样本。这意味着模型会更频繁地查看“是”样本，但您不会像这样丢弃数据。

第二类解决方案是对指标使用权重。也就是说，您可以将一系列样本权重提供给拟合操作，以使“是”样本的权重远大于“否”样本的权重。

您还可以通过自定义指标实施加权。

我将从编写数据生成器的方法开始。