首先,我在上周阅读了(大部分)与此相关的所有帖子,但我还没有获得专有技术程序。让我解释一下我的问题(抱歉,这可能有点长......)。
我有一个庞大的生物医学数据集:大约5000个科目,50000个变量/科目。该集合在10年内每3年获得一次。
这些变量可能连续(冠状动脉斑块的体积),名义(年龄,每周吃炸土豆多少次,吃多少次炒每周土豆等)和分类(男性或女性)。总而言之,我有来自成像(MR,CT,Eco等),原始数据(基因组,蛋白质组,代谢组学等)和临床测试(饮食,习惯等)的数据。所有这些都可以有不同的值。
目标是提取相关特征来预测一些心血管疾病(输出是连续得分)。对于该模型,我使用RF,DeepLearning和GLM算法在h2o平台上运行一些试验。我也正在研究LASSO或Elastic Net回归......但建议非常受欢迎!!
然而,我的主要疑问与目前分类和名义数据的预处理有关:
实际上,这项工作的想法是预测一些心血管疾病,这是(我认为)主要问题之一:我们的大多数数据来自健康的患者。我们的疾病患者很少:S您认为在这种情况下不可能做出预测吗?
深度学习模式'似乎算法"标准化"自动[-1,1]和我读到的数据之间的数据是RF对数据规模不敏感。
数据的估算:哪个是正确的过程,在观察值非常低的变量(我们的人很少)或几乎没有可能的值(即二进制,[1] ,2,3],[1,2,3,4,5])?或者不可能这样做?
共线性:另一个大问题是变量的冗余,出于生物学原因与否。在数据中找到相关性,我不确定它们如何影响模型。然而,有了这么多的变量,它们也可能是虚假的相关性(避免将其删除)。你知道任何方法来评估这种相关性是否意味着变量之间的独立性吗?或者简单地说,你怎么处理这个问题?我需要一些自动过程,因为我无法手动评估每个相关性。
非常感谢你的帮助,不要犹豫,问我需要什么。
最佳, JP。