Question

我正在处理分类问题，我想将数据分类为2类。我在1到5的不同温度下生成1000个样本。我使用以下函数load_data加载数据。在“数据”是二维数组（1000,16）的情况下，行对应于“ 1.0.npy”处的样本数，其他点类似，而16则是要素数。因此，我通过应用for循环从每个样本中选择了最大值和最小值。但是我担心我的规范化是不正确的，因为我不确定机器学习中的规范化策略是什么。我应该从1.0.npy文件中包含的所有1000个样本中选择np.amax（每个样本）还是从np.amax（“ 1.0.npy”）中选择均值。我的目标是规范0到1之间的数据。

`def load_data():
    path ="./directory"
    files =sorted(os.listdir(path))  #{1.0.npy, 2.0.npy,.....5.0.npy}
    dictData ={}

    for df in sorted(files):
        print(df)
        data = np.load(os.path.join(path,df))
        a=data
        lis =[]
        for i in range(len(data)):
            old_range = np.amax(a[i]) - np.amin(a[i])

            new_range = 1 - 0
            f = ((a[i] - np.amin(a[i])) / old_range)*new_range + 0

            lis.append(f)`

归一化后，我得到以下结果，使得每个样本的第一个值为0，最后一个值为1。 [0, ...., 1] #first sample [0,.....,1] #second sample

机器学习语言中的规范化是什么意思？它对应一个样本吗？

0 个答案: