我有csv文件,
数据:
降雨(mm):113.6,152.3,181.9,152.3,125.3
dummy(types_of_soil):1,0,0,2,1
虚拟变量: 1 ==>中等黑土
0 ==>深黑色
2 ==>萝卜棕色
因变量(y):产量
自变量:雨,假(土壤类型)
所以,我想规范化这个数据,如何在1到10范围内扩展数据?
我尝试使用公式: (xi - min)/(max - min) 这是对的吗?
以及如何缩放二进制变量(虚拟)的数据?
答案 0 :(得分:1)
您可以使用此代码来规范化数据
import pandas
import scipy
import numpy
from sklearn.preprocessing import MinMaxScaler
url = "filename.csv"
names = ['yield','Rain','types of soil']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,] **select x independent variable**
Y = array[:,] **select y dependent variable**
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])
了解更多详情。看到这个链接 http://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/