我有3%标记为“是”和97%标记为“否”的数据。这是一个连续的数据流,所以我认为我不能强行复制yes数据。我正在使用LSTM,其中输出是1表示是,输出0表示否。另外,我认为我无法挖掘更多数据。我发现了有关班级重量的一些知识,但我不知道如何在这种情况下实现。还有其他方法可以解决此问题吗?数据是连续的数字。
答案 0 :(得分:0)
您可以采用两种解决方案。
第一个方法是建立一个数据生成器,该数据生成器将生成批次,以选择均衡数量的样本。例如,您可以构建一个python生成器,该生成器将生成32个样本的批次,以便从集合“是”中随机抽取16个样本,从集合“否”中随机抽取16个样本。这意味着模型会更频繁地查看“是”样本,但您不会像这样丢弃数据。
第二类解决方案是对指标使用权重。也就是说,您可以将一系列样本权重提供给拟合操作,以使“是”样本的权重远大于“否”样本的权重。
您还可以通过自定义指标实施加权。
我将从编写数据生成器的方法开始。