我真的需要你的帮助。我正在进行文本分类,我使用了tfidf
和naive bayes ngram
,所以我保存了模型,然后将其加载以重用和分类短语,问题出在我使用tfidf
加载并当我尝试使用模型时,出现此错误
“ ValueError:尺寸不匹配” 预先感谢
from Feature_Engineering import clean_text_test
import pandas as pd
X_raw = 'Spécialisées dans l’achat et la revente de produits de luxes, ces organisations parviennent à blanchir des centaines de millions d’euros par an. Le luxe à la française fascine les jeunes Chinois de la classe moyenne. C’est tellement vrai qu’en région parisienne des organisations occultes profitent de la revente de vêtements et d’articles de maroquinerie pour blanchir de l’argent provenant de fraudes fiscales, du proxénétisme ou du trafic de drogue. Les enquêteurs du deuxième district de police judiciaire de Paris viennent de mettre à bas, à l’automne dernier, un réseau fort d’au moins six hommes et femmes d’origine chinoise, âgés de 30 et 40 ans, qui entre 2017 et 2018, a fait circuler plus de cinq millions d’euros entre la France et la Chine, sans payer un centime de taxe.'
X_final=clean_text_test(X_raw)
df_train = pd.DataFrame({'X': [X_final]})
tf1 = pickle.load(open("tf_ngram.pkl", 'rb'))
# Create new tfidfVectorizer with old vocabulary
tf1_new = TfidfVectorizer(analyzer='word', ngram_range=(5,5), lowercase = True,
max_features = 50000, vocabulary = tf1.vocabulary_)
X_tf1 = tf1_new.fit_transform(df_train.X)
filename = 'Naive_Bayes_CountVect'
loaded_model = pickle.load(open(filename, 'rb'))
ypredict=loaded_model.predict(X_tf1)
答案 0 :(得分:0)
为什么还要重新安装TF-IDF矢量化器?您只需要做X_tf1 = tf1.transform(df_train.X)