我是数据科学的新手,正在做自我学习。我已经研究了所有数据科学概念并尝试应用。对于数据集,我访问了Kaggle并获取了一个数据文件。但是,csv文件中有超过四千列。因此,在这里我陷入了如何处理此类数据的困境,因为在学习使用的所有数据时,其功能较少。请帮助我提供一些相关文档或在这里指导如何清理和处理具有数千个功能的此类数据。
答案 0 :(得分:0)
在统计学,机器学习和信息论中,降维或降维是通过获取一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。
许多功能列并不适合培训。首先,它的计算成本很高,并且降低了模型的准确性。
您应该尝试查看提供有用示例的this link。如:
还尝试搜索缺失和重复的值。
答案 1 :(得分:0)
您必须首先减少列数,像使用主成分分析(PCA)这样的功能工程将有所帮助。您可以将其减少到50列左右,最好与之配合使用