Question

我有一个包含368个独立变量的数据集，我目前正在使用随机森林分类来确定哪些变量在解释数据行为时最重要。我已经在Python中完成了这个，并且发现了类似这样的结果：

[(0.3748, 'var38'), (0.1738, 'var15'), (0.0294, 'saldo_medio_var5_ult3'), (0.0281, 'saldo_medio_var5_hace3'),...]

获得所有368个变量的结果。试图在图表上绘制所有这些是不必要的，因此，我试图做的是让Python列出仅10个最重要的变量。

我如何让Python执行此操作，以及如何在图表上显示此信息？任何帮助将非常感激！

Answer 1

假设数字是重要的，只需对列表进行排序并切出前十项。

variables.sort()
print variables[:10]