是否有可能在另一个列表中的其他文件中训练模型,并在另一个列表中使用预测的方法?由于未定义矢量化器,因此无法使用。我不想每次运行程序时都重新训练数据。是否可以保存模型并仅将模型加载到另一个文件中,并使用另一个列表来预测数据?
document = df.stack().tolist()
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(document)
true_k = 20
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
joblib.dump(model, 'model.joblib')
model = joblib.load('model.joblib')
documentnew = df.stack().tolist()
print("\n")
print("Prediction")
X = vectorizer.transform([documentnew[2]])
predicted = model.predict(X)
当我加载模型并转换新文档时,会出现此错误。
ValueError: Incorrect number of features. Got 7 features, expected 39
如果上面的方法在同一个文件中,则可以使用,但是我不希望每次运行程序时都对模型进行更改和训练。