我有一个如下所示的json文件:
[
{
"id" : "0001"
"label" : "A"
"properties": [
"a",
"b",
"c"
]
},
{
"id" : "0002"
"label" : "B"
"properties": [
"b",
"d",
"e"
]
}
]
这个数据集非常大,它有20个不同的标签,9000个不同的属性和数以万计的不同ID。
我正在使用python处理此文件,并希望使用scikit-learn来构建可以进行预测的模型。
如何进行并确保我最终得到的编码功能看起来像这样:
id, label, a, b, c, d, e
0001, A, 1, 1, 1, 0, 0
0002, B, 0, 1, 0, 1, 1
我尝试使用pandas,patsy和其他一些东西,但无法从json中获取正确的数据集。我当然可以手动编写所有内容但是a)处理速度要慢得多; b)不会让我对这些工具有任何见解(pandas,numpy,scipy,scikit-learn)