回归不平衡和多变量大数据。预处理疑虑

时间:2017-10-24 09:52:36

标签: regression normalization correlation h2o categorical-data

首先,我在上周阅读了(大部分)与此相关的所有帖子,但我还没有获得专有技术程序。让我解释一下我的问题(抱歉,这可能有点长......)。

我有一个庞大的生物医学数据集:大约5000个科目,50000个变量/科目。该集合在10年内每3年获得一次。

这些变量可能连续(冠状动脉斑块的体积),名义(年龄,每周吃炸土豆多少次,吃多少次炒每周土豆等)和分类(男性或女性)。总而言之,我有来自成像(MR,CT,Eco等),原始数据(基因组,蛋白质组,代谢组学等)和临床测试(饮食,习惯等)的数据。所有这些都可以有不同的值。

目标是提取相关特征来预测一些心血管疾病(输出是连续得分)。对于该模型,我使用RF,DeepLearning和GLM算法在h2o平台上运行一些试验。我也正在研究LASSO或Elastic Net回归......但建议非常受欢迎!!

然而,我的主要疑问与目前分类和名义数据的预处理有关:

  1. 不平衡数据:显然,您可以找到记录非常低的变量(即每天只有20/5000人吃土豆泥)和其他大多数人(即4500/5000有一些特定的遗传表达)。我该怎么处理?将所有与马铃薯相关的变量分组在一组是否正确(注意油炸薯片中的营养成分与粗马铃薯中的营养成分不同......)
  2. 实际上,这项工作的想法是预测一些心血管疾病,这是(我认为)主要问题之一:我们的大多数数据来自健康的患者。我们的疾病患者很少:S您认为在这种情况下不可能做出预测吗?

    1. 标准化:阅读一些帖子,我无法得到答案。首先,您认为我需要标准化这些分类变量吗?如果是,我该怎么办?用(变量 - min(变量))/(mean(变量)-min(变量))??
    2. 深度学习模式'似乎算法"标准化"自动[-1,1]和我读到的数据之间的数据是RF对数据规模不敏感。

      1. 数据的估算:哪个是正确的过程,在观察值非常低的变量(我们的人很少)或几乎没有可能的值(即二进制,[1] ,2,3],[1,2,3,4,5])?或者不可能这样做?

      2. 共线性:另一个大问题是变量的冗余,出于生物学原因与否。在数据中找到相关性,我不确定它们如何影响模型。然而,有了这么多的变量,它们也可能是虚假的相关性(避免将其删除)。你知道任何方法来评估这种相关性是否意味着变量之间的独立性吗?或者简单地说,你怎么处理这个问题?我需要一些自动过程,因为我无法手动评估每个相关性。

      3. 非常感谢你的帮助,不要犹豫,问我需要什么。

        最佳, JP。

0 个答案:

没有答案