数据帧,csv和CNTK

时间:2017-02-28 00:37:57

标签: pandas dataframe cntk

我一直在玩CNTK并且发现只能使用numpy数组训练模型。这是对的吗?

这对图像识别等有意义。

如何将整洁的数据集(使用pandas作为数据框读入)转换为可以训练逻辑回归的格式?我试图把它读成一个numpy数组

 np.genfromtxt(“My.csv",delimiter=',' , dtype=float)

我也尝试用

包装变量
np.array.MyVeriable.astype('float32')

但我没有得到我希望能够提供模型的结果。

我在教程中也找不到关于如何在CNTK中对表格数据帧进行ML的任何内容。

不支持吗?

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

感谢这些链接。这就是我最终在csv中阅读它似乎工作的方式,但Sayan请根据需要更正:

def generate_data_from_csv():

# try to find the data file local. If it doesn't report "file does not exists" if it does report "using loacl file"
data_path = os.path.join("MyPath")
csv_file = os.path.join(data_path, "My.csv")
if not os.path.exists(data_path):
    os.makedirs(data_path)
if not os.path.exists(data_file):
    print("file does not exists")
else:
    print("using loacl file")

df = pd.read_csv(csy_file, usecols = ["predictor1", "predictor2",
"predictor3", "predictor4", "dependent_variable"], dtype=np.float32)

return df

然后我将该数据框保存为training_data

training_data = generate_data_from_csv()

然后我将该数据帧转换为numpy数组,如下所示

training_features = np.asarray(training_data[[["predictor1",    
"predictor2", "predictor3", "predictor4",]], dtype = "float32")
training_labels = np.asarray(training_data[["dependent_variable"]],
dtype="float32")

训练我使用此代码的模型:

features, labels = training_features[:,[0,1,2,3]], training_labels