应用错误收集

首先，我在上周阅读了（大部分）与此相关的所有帖子，但我还没有获得专有技术程序。让我解释一下我的问题（抱歉，这可能有点长......）。

我有一个庞大的生物医学数据集：大约5000个科目，50000个变量/科目。该集合在10年内每3年获得一次。

这些变量可能连续（冠状动脉斑块的体积），名义（年龄，每周吃炸土豆多少次，吃多少次炒每周土豆等）和分类（男性或女性）。总而言之，我有来自成像（MR，CT，Eco等），原始数据（基因组，蛋白质组，代谢组学等）和临床测试（饮食，习惯等）的数据。所有这些都可以有不同的值。

目标是提取相关特征来预测一些心血管疾病（输出是连续得分）。对于该模型，我使用RF，DeepLearning和GLM算法在h2o平台上运行一些试验。我也正在研究LASSO或Elastic Net回归......但建议非常受欢迎!!

然而，我的主要疑问与目前分类和名义数据的预处理有关：

不平衡数据：显然，您可以找到记录非常低的变量（即每天只有20/5000人吃土豆泥）和其他大多数人（即4500/5000有一些特定的遗传表达）。我该怎么处理？将所有与马铃薯相关的变量分组在一组是否正确（注意油炸薯片中的营养成分与粗马铃薯中的营养成分不同......）

实际上，这项工作的想法是预测一些心血管疾病，这是（我认为）主要问题之一：我们的大多数数据来自健康的患者。我们的疾病患者很少：S您认为在这种情况下不可能做出预测吗？

标准化：阅读一些帖子，我无法得到答案。首先，您认为我需要标准化这些分类变量吗？如果是，我该怎么办？用（变量 - min（变量））/（mean（变量）-min（变量））??

深度学习模式＆＃39;似乎算法＆＃34;标准化＆＃34;自动[-1,1]和我读到的数据之间的数据是RF对数据规模不敏感。

数据的估算：哪个是正确的过程，在观察值非常低的变量（我们的人很少）或几乎没有可能的值（即二进制，[1] ，2,3]，[1,2,3,4,5]）？或者不可能这样做？
共线性：另一个大问题是变量的冗余，出于生物学原因与否。在数据中找到相关性，我不确定它们如何影响模型。然而，有了这么多的变量，它们也可能是虚假的相关性（避免将其删除）。你知道任何方法来评估这种相关性是否意味着变量之间的独立性吗？或者简单地说，你怎么处理这个问题？我需要一些自动过程，因为我无法手动评估每个相关性。

非常感谢你的帮助，不要犹豫，问我需要什么。

最佳， JP。