变量json列表到分类要素列

时间:2015-10-02 15:01:30

标签: python json pandas scikit-learn

我有一个如下所示的json文件:

[
    {
        "id" : "0001"
        "label" : "A"
        "properties": [
            "a",
            "b",
            "c"
        ]
    },
    {
        "id" : "0002"
        "label" : "B"
        "properties": [
            "b", 
            "d",
            "e"
        ]

    }
]

这个数据集非常大,它有20个不同的标签,9000个不同的属性和数以万计的不同ID。

我正在使用python处理此文件,并希望使用scikit-learn来构建可以进行预测的模型。

如何进行并确保我最终得到的编码功能看起来像这样:

id,   label, a, b, c, d, e
0001, A,     1, 1, 1, 0, 0
0002, B,     0, 1, 0, 1, 1

我尝试使用pandas,patsy和其他一些东西,但无法从json中获取正确的数据集。我当然可以手动编写所有内容但是a)处理速度要慢得多; b)不会让我对这些工具有任何见解(pandas,numpy,scipy,scikit-learn)

0 个答案:

没有答案