我有json格式的大型数据集,我想从中提取捕获最多变化的重要属性。我想提取这些属性以在数据集上构建搜索引擎,这些属性是哈希键。
这里要问的主要问题是对json数据进行特征选择。
答案 0 :(得分:0)
您可以使用pandas.read_json()函数将数据读入pandas DataFrame对象。您可以使用此DataFrame对象深入了解您的数据。例如:
data = pandas.load_json(json_file)
data.head() # Displays the top five rows
data.info() # Displays description of the data
或者您可以在此DataFrame上使用matplotlib为每个数字属性绘制直方图
import matplotlib.pyplot as plt
data.hist(bins=50, figsize=(20,15))
如果您对属性的关联感兴趣,可以使用pandas.scatter_matrix()函数。
您必须手动选择最适合您任务的属性,此工具可帮助您了解数据并深入了解数据。