我是数据科学的新手,我想探索数据之间的关系。我有一个非常大的数据集,包含 556784 X 60 行和列。有一些不需要的变量可以忽略来提供给神经网络。使用 Linearregression&& Multipleregression 可以帮助我们找到Xlabel和Ylabel之间的关系。但在如此庞大的数据集中运行回归技术真的有帮助吗?还是有其他方法可以找到哪些数据对问题非常重要,哪些数据不对?
我知道这是一个理论问题,但它确实有助于我进一步前进。 谢谢!
答案 0 :(得分:1)
我也是DS中的菜鸟,但我想我可以给你一些想法:
http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing
我希望其中一些有用。