Scikit-learn - 处理形状变化的数据

时间:2018-05-07 11:55:05

标签: python machine-learning data-structures scikit-learn

我有一个约1k样本的数据集,我想应用一些非监督技术,以便对这些数据进行聚类和可视化。

数据可以被解释为电子表格的表格,不幸的是,它没有非常明确的结构模式。表格行的数量各不相同,但不是列。

数据的结构如下:

sample 1:

{
  "table1": {
    "column1": [
      "-",
      "-",
      "-"
    ],
    "column2": [
      "2017-04-16 10:00",
      "2017-04-16 10:00",
      "2017-04-16 10:00"
    ],
    "column3": [
      "-",
      "-",
      "-"
    ],
    "column4": [
      "name X",
      "name Y",
      "name Z"
    ],
    "column5": [
      "0",
      "0",
      "0"
    ],
  }
}


sample 2:

{
  "table1": {
    "column1": [
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-"
    ],
    "column2": [
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00"
    ],
    "column3": [
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-"
    ],
    "column4": [
      "name A",
      "name Z",
      "name B",
      "name X",
      "name C",
      "name D",
      "name E",
      "name F"
    ],
    "coumn5": [
      "",
      "",
      "3",
      "1",
      "0",
      "3",
      "0",
      "0"
    ]
  }
}

如何处理scikit-learn提供的无监督学习算法的这些数据?填补这个问题的方法是什么?如果是这样,我如何在这种情况下应用填充?

0 个答案:

没有答案