我们如何在json数据上进行特征选择?

时间:2017-08-02 21:51:58

标签: json machine-learning feature-selection

我有json格式的大型数据集,我想从中提取捕获最多变化的重要属性。我想提取这些属性以在数据集上构建搜索引擎,这些属性是哈希键。

这里要问的主要问题是对json数据进行特征选择。

1 个答案:

答案 0 :(得分:0)

您可以使用pandas.read_json()函数将数据读入pandas DataFrame对象。您可以使用此DataFrame对象深入了解您的数据。例如:

data = pandas.load_json(json_file)
data.head() # Displays the top five rows
data.info() # Displays description of the data

或者您可以在此DataFrame上使用matplotlib为每个数字属性绘制直方图

import matplotlib.pyplot as plt
data.hist(bins=50, figsize=(20,15))

如果您对属性的关联感兴趣,可以使用pandas.scatter_matrix()函数。

您必须手动选择最适合您任务的属性,此工具可帮助您了解数据并深入了解数据。