pandas:查找大型数据集中数据之间的关系

时间:2017-12-29 05:44:45

标签: pandas data-science

我是数据科学的新手,我想探索数据之间的关系。我有一个非常大的数据集,包含 556784 X 60 行和列。有一些不需要的变量可以忽略来提供给神经网络。使用 Linearregression&& Multipleregression 可以帮助我们找到Xlabel和Ylabel之间的关系。但在如此庞大的数据集中运行回归技术真的有帮助吗?还是有其他方法可以找到哪些数据对问题非常重要,哪些数据不对?

我知道这是一个理论问题,但它确实有助于我进一步前进。 谢谢!

1 个答案:

答案 0 :(得分:1)

我也是DS中的菜鸟,但我想我可以给你一些想法:

  • 您处理数据的方式取决于您使用的数据类型(数字,文本或某种时间序列)
  • 自己做一些情节是个好主意。
  • 您可以使用相当小的数据部分来缩短计算时间。
  • NN真的需要吗?它给出了非常不清楚的结果,很难解释,需要时间来训练,也许你应该尝试从#34;经典"首先建模并做一些好的特征工程。
  • 最后,你可以查看sklearn手册(我发现它非常好)用于数据预处理章节,我认为它会给你一些尝试的想法:

http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

我希望其中一些有用。