机器学习语言中的规范化是什么意思?它对应一个样本吗?

时间:2018-10-24 06:26:18

标签: python machine-learning normalization

我正在处理分类问题,我想将数据分类为2类。我在1到5的不同温度下生成1000个样本。我使用以下函数load_data加载数据。在“数据”是二维数组(1000,16)的情况下,行对应于“ 1.0.npy”处的样本数,其他点类似,而16则是要素数。因此,我通过应用for循环从每个样本中选择了最大值和最小值。但是我担心我的规范化是不正确的,因为我不确定机器学习中的规范化策略是什么。我应该从1.0.npy文件中包含的所有1000个样本中选择np.amax(每个样本)还是从np.amax(“ 1.0.npy”)中选择均值。我的目标是规范0到1之间的数据。

`def load_data():
    path ="./directory"
    files =sorted(os.listdir(path))  #{1.0.npy, 2.0.npy,.....5.0.npy}
    dictData ={}

    for df in sorted(files):
        print(df)
        data = np.load(os.path.join(path,df))
        a=data
        lis =[]
        for i in range(len(data)):
            old_range = np.amax(a[i]) - np.amin(a[i])

            new_range = 1 - 0
            f = ((a[i] - np.amin(a[i])) / old_range)*new_range + 0

            lis.append(f)`

归一化后,我得到以下结果,使得每个样本的第一个值为0,最后一个值为1。     [0, ...., 1] #first sample [0,.....,1] #second sample

0 个答案:

没有答案