应用错误收集

在python中为分类问题生成综合数据的正确开始

时间：2019-06-19 08:46:31

标签： python data-science synthetic

我有一个包含9个要素和1300行的数据集。我试图在我拥有的当前数据上生成综合数据。输出分为2个选项。即1和0，即（1-是和0-否），这里的问题是几乎1100个案例的输出为“ 0”，而200个案例的输出为“ 1”。以前，我尝试过训练，但效果并不理想。我的教授建议我处理综合数据，并增加输出“ 1”的用例，以帮助开发机器学习模型。我对合成数据一无所知。我承认。我只是不知道从哪里开始。有人可以帮忙吗？如何解决这类问题。任何建议表示赞赏？任何参考代码对于学习目的都是有用的。谢谢

1 个答案:

答案 0 :(得分：0)

据我了解，您需要使用数据增强。

看看this和/或this。

您将能够大大增加数据集的大小，并有可能提高您的训练准确性。

类似于以下内容：

生成合成社交网络？
为无监督学习生成合成数据
生成稀疏向量的合成训练集
DB2中的数据屏蔽（或生成综合数据），具有数据依赖性
在SAS中的多类别分类问题中为每个类别生成概率
为电信公司生成汇总数据集时遇到问题
信号之间具有相关性的综合多元时间序列数据
在python中为分类问题生成综合数据的正确开始
使用高斯分布生成综合数据
创建分类的Numpy数据集时遇到的问题

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？