Question

每当我尝试清洁单个CSV文件时，每当尝试并预测概率时，我都会遇到值错误。我有什么办法可以在一个CSV文件上训练模型，保留该模型，然后在另一个CSV文件中收集一些测试数据，然后通过我使用第一个文件训练的模型将后一个文件提供给我？

P.S。重要的是，我不要使用train_test_split，因为我需要有关每个单独类的信息（因为它们具有I.D）。

Answer 1

按照以下步骤

使该函数能够处理所有数据处理任务，例如读取csv文件，清理数据等。使用该函数，读取测试的csv文件并设置编码器和其他转换参数。
使用该功能读取文件，使用户仅根据训练数据设置参数。对于测试数据，只需变换功能。
同样重要的是要记住，两个csv文件都具有相同的列，并且列的顺序也很重要。
仅适合训练数据，将测试数据用于<strong>预测和评分。

# Training csv
train = read_csv('train.csv')

# Transform and clean data
# Fit function

# Testing csv
test = pd.read_csv('test.csv')

# Transform and fit the data
# Predict and score using the testing data

如果我有2个不同的csv文件，我该如何使用其中一个进行训练而另一个用于测试sklearn logistic回归模型？

1 个答案: