Python 3.5,从sklearn预处理
df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
答案 0 :(得分:11)
preprocessing.scale()算法将您的数据放在一个比例上。这对于大量稀疏的数据集很有用。简而言之,您的数据非常分散。例如,X的值可能是这样的:
X = [1,4,400,10000,100000]
稀疏性的问题在于它非常偏颇或在统计学上倾斜。因此,缩放数据会将所有值集中到一个刻度上,从而消除稀疏性。关于它如何在数学细节中工作,这遵循标准化和标准化的相同概念。您可以对这些进行研究,以了解它的详细信息。但为了让生活变得更简单,sklearn算法会为您完成所有工作!
答案 1 :(得分:0)
缩放数据可将您的所有值集中到一个尺度上,从而消除了稀疏性,并且遵循相同的标准化和标准化的概念。 要查看效果,可以在处理前后在数据帧上调用describe:
main
您会看到df2在每个字段中的平均值为 0 ,标准的变异值为1 。
答案 2 :(得分:-1)
preprocessing.scale()方法有助于数据点的标准化。它将除以标准差,然后减去每个数据点的平均值。