应用错误收集

时间：2016-10-12 08:18:54

标签： python machine-learning pca missing-data

我目前正在处理一个非常特殊的数据集：它有大约1000列和1M行，但大约90％的值是Nan。这不是因为记录不好，而是因为数据代表对个人的测量，并且每个人只有大约100个特征相关。因此，输入缺失值将完全破坏数据中的信息。

要简单地将具有相同特征的个体组合在一起并且仅考虑与每个子组相关的列是不容易的，因为这实际上会为每组列产生极小的组（几乎任何填充列的组合都是可能对某个人而言）。

问题是，scikit学习降维方法无法处理缺失值。是否有一个包，或者我应该使用不同的方法并跳过降维？我

答案 0 :(得分：0)

你可以使用梯度提升包来处理缺失的值并且非常适合你的情况。因为你要求包中的gbm和python中的xgboost可以使用。如果你想知道xgboost中如何自动处理缺失值通过this paper的第3.4节获得洞察力。