Question

我有一个如下所示的json文件：

[
    {
        "id" : "0001"
        "label" : "A"
        "properties": [
            "a",
            "b",
            "c"
        ]
    },
    {
        "id" : "0002"
        "label" : "B"
        "properties": [
            "b", 
            "d",
            "e"
        ]

    }
]

这个数据集非常大，它有20个不同的标签，9000个不同的属性和数以万计的不同ID。

我正在使用python处理此文件，并希望使用scikit-learn来构建可以进行预测的模型。

如何进行并确保我最终得到的编码功能看起来像这样：

id,   label, a, b, c, d, e
0001, A,     1, 1, 1, 0, 0
0002, B,     0, 1, 0, 1, 1

我尝试使用pandas，patsy和其他一些东西，但无法从json中获取正确的数据集。我当然可以手动编写所有内容但是a）处理速度要慢得多; b）不会让我对这些工具有任何见解（pandas，numpy，scipy，scikit-learn）

变量json列表到分类要素列

0 个答案: