如果我有2个不同的csv文件,我该如何使用其中一个进行训练而另一个用于测试sklearn logistic回归模型?

时间:2019-06-15 15:14:21

标签: python machine-learning scikit-learn

每当我尝试清洁单个CSV文件时,每当尝试并预测概率时,我都会遇到值错误。我有什么办法可以在一个CSV文件上训练模型,保留该模型,然后在另一个CSV文件中收集一些测试数据,然后通过我使用第一个文件训练的模型将后一个文件提供给我?

P.S。重要的是,我不要使用train_test_split,因为我需要有关每个单独类的信息(因为它们具有I.D)。

1 个答案:

答案 0 :(得分:0)

按照以下步骤

  1. 使该函数能够处理所有数据处理任务,例如读取csv文件,清理数据等。使用该函数,读取测试的csv文件并设置编码器和其他转换参数。
  2. 使用该功能读取文件,使用户仅根据训练数据设置参数。对于测试数据,只需变换功能。
  3. 同样重要的是要记住,两个csv文件都具有相同的列,并且列的顺序也很重要。
  4. 仅适合训练数据,将测试数据用于<​​strong>预测和评分。
# Training csv
train = read_csv('train.csv')

# Transform and clean data
# Fit function

# Testing csv
test = pd.read_csv('test.csv')

# Transform and fit the data
# Predict and score using the testing data