特征工程高斯分布式输入

时间:2018-01-25 08:27:23

标签: machine-learning neural-network

我正在设计一个NN分类器,其中大多数输入特征是高斯分布的估计。即一个特征具有mu和sigma值。

  • 分类器有大约30个输入功能,如果你考虑每个mu和sigma他们自己的功能,则为60。

  • 输出数量为15,即有15种可能的分类。

  • 我有大约5万个示例用于培训/验证。

我可以想到一些如何将这些功能转化为有用功能的不同场景,但我并不聪明地就它们如何影响我的结果得出任何结论。

第一种情况是仅仅按比例缩放并盲目地传递每个mu和sigma。在这种情况下,我真的不知道sigma如何帮助分类器,因为它只是衡量不确定性的标准。最理想的是,这会导致轻微的模糊"可能用于估计分类结果的某些确定性度量的分类。

第二种情况是通过从30个输入要素中的每一个的高斯中绘制一个值来生成更多测试用例,然后对这些随机值进行标准化。这会给我更多的训练数据,这可能是有用的。

我注意到我有可能获得更多数据(大约50k以上的例子),但我不确定数据是多么准确,所以我想首先尝试使用这个较小的数据集,看它是否收敛。

问题是:社区中是否有任何共识或有趣的论文,描述如何处理输入特征的估计不确定性?

谢谢!

P.S。抱歉我的措辞不好,ML不是我的专业领域,也不是英语我的母语。

0 个答案:

没有答案