用scikit-learn评论分析

时间:2018-03-09 14:39:34

标签: python scikit-learn adaboost

我正在使用scikit-learn来分析亚马逊的评论数据集。 为了实现它(根据一些例子)我做:

  1. 将文字和摘要更改为小写,
  2. 更改收缩并删除不需要的字符
  3. 创建AdaBoostClassifier以适合我的模型,如下所示
  4. vect = CountVectorizer(min_df = 1)
    
    ab = AdaBoostClassifier(learning_rate=0.1)
    

    rnds = data_train.sample(frac = 1.0, random_state = np.random.RandomState(87824), axis = 0)
    
    tests = data_test.sample(frac = 1.0, random_state = np.random.RandomState(824), axis = 0)
    
    bow = vect.fit_transform(rnds['Text'])
    
    ab.fit(bow, rnds['Score'])
    

    使用以下方法检查训练模型的准确度时:

    preds = ab.predict(vect.transform(tests['Text']))
    print('Accuracy :' + str(100 * sum(preds == tests['Score'].values) / len(preds)) + '%')
    

    我得到了大约70%。

    我的怀疑是,

    1. 我怎样才能改善这个结果?或者这是错误的做法吗?
    2. ab.fit只运行一次?我尝试将其放入for循环中以检查准确度是否增加,但每次迭代的值都完全相同。
    3. 谢谢。

0 个答案:

没有答案