如何在相同的比例范围内规范化所有参数的数据

时间:2017-02-04 08:09:19

标签: normalization normalize

我有csv文件,
数据:

产量:1172.4,1712.7,863.88,2731.34,5220

降雨(mm):113.6,152.3,181.9,152.3,125.3

dummy(types_of_soil):1,0,0,2,1

虚拟变量: 1 ==>中等黑土

0 ==>深黑色

2 ==>萝卜棕色

因变量(y):产量

自变量:雨,假(土壤类型)

所以,我想规范化这个数据,如何在1到10范围内扩展数据?

我尝试使用公式: (xi - min)/(max - min) 这是对的吗?

以及如何缩放二进制变量(虚拟)的数据?

1 个答案:

答案 0 :(得分:1)

您可以使用此代码来规范化数据

import pandas
import scipy
import numpy
from sklearn.preprocessing import MinMaxScaler
url = "filename.csv"
names = ['yield','Rain','types of soil']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,]  **select x independent variable**
Y = array[:,]  **select y dependent variable**
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])

了解更多详情。看到这个链接 http://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/