分类:Tweet情绪分析-步骤顺序

时间:2020-07-11 10:51:11

标签: python machine-learning classification sentiment-analysis text-classification

我目前正在进行推文情感分析,并且对步骤的正确顺序有一些疑问。请假设数据已经过预处理和相应的准备。所以这就是我要如何进行:

  1. 使用train_test_split(比率为80:20)保留测试 数据集。
  2. 向量化x_train,因为这些推文不是数字的。

在接下来的步骤中,我想确定最佳分类器。请假设这些已导入。所以我继续:

  1. 超参数化(网格搜索),包括交叉验证方法。 在此步骤中,我想确定每个参数的最佳参数 分类器。对于KNN,代码如下:
model = KNeighborsClassifier()
n_neighbors = range(1, 10, 2)
weights = ['uniform', 'distance']
metric = ['euclidean', 'manhattan', 'minkowski']

# define grid search
grid = dict(n_neighbors=n_neighbors, weights=weights ,metric=metric)
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy',error_score=0)
grid_result = grid_search.fit(train_tf, y_train)

# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
    print("%f (%f) with: %r" % (mean, stdev, param))
  1. 比较分类器的准确性(取决于最佳超参数)
  2. 选择最佳分类器
  3. 获取保留的测试数据集(来自train_test_split()),并对测试数据使用最佳分类器

这是正确的方法还是您会建议更改某些内容(例如,单独进行交叉验证而不是在超参数化过程中进行)?在最后一步测试数据是否有意义,还是应该更早地评估未知数据集的准确性?

1 个答案:

答案 0 :(得分:2)

有很多方法可以做到这一点,人们对此有很强的见解,但我并不总是相信他们完全理解了他们的主张。

TL; DR:您的方法看起来不错,并且您正在提出明智的问题。

话虽如此,这里要考虑一些事情:

  1. 您为什么要进行火车测试拆分验证?
  2. 您为什么要进行超参数调整?
  3. 您为什么要进行交叉验证?

是的,这些技术中的每一项都擅长于做特定的事情;但这并不一定意味着它们都应该属于同一管道。

首先,让我们回答以下问题:

  1. 训练测试拆分对于测试分类器的推理能力很有用。换句话说,我们想知道分类器总体上表现 的程度(而不是用于训练的数据)。测试部分使我们无需使用训练部分即可评估分类器。

  2. 超参数调整对于评估超参数对分类器性能的影响很有用。为了使其有意义,我们必须比较两个(或多个)模型(使用不同的超参数),但最好使用相同的训练部分进行训练(以消除选择偏差)。一旦知道性能最佳的超参数,我们该怎么办?这套超参数会始终保持最佳性能吗?不会。您会看到,由于分类的随机性,一个超参数组可能在实验A中效果最佳,然后另一组超参数可能在实验B中效果最佳。建立分类器。

  3. 交叉验证用于消除与建筑物分类器相关的一些随机性。因此,机器学习流水线可能会产生一个分类器,该分类器使用1个测试折叠可产生94%的准确度,而使用另一个测试折叠则可产生83%的准确度。这是什么意思?这可能意味着1折包含的样品很容易。或可能意味着无论出于何种原因,分类器实际上都更好。您不知道,因为它是一个黑匣子。

实际上,这有什么帮助?

我认为使用测试序列拆分交叉验证没有什么价值。我使用交叉验证并将报告的准确性报告为n折的平均值。它已经在测试我的分类器的性能。我不明白为什么将您的训练数据进一步划分以进行另一轮训练测试验证会有所帮助。使用平均值。话虽如此,我将交叉验证期间创建的n折模型中表现最好的模型用作最终模型。正如我所说,这是黑匣子,因此我们无法知道哪个模型最好,但是在其他条件相同的情况下,您也可能会使用性能最好的模型。实际上可能会更好。

超参数调整非常有用,但可能需要花费很长时间才能进行广泛的调整。我建议将超参数调整添加到管道中,但仅测试2套超参数。因此,除1外,其他所有超参数都应保持不变。批次大小= {64,128}。运行该命令,您将可以自信地说:“哦,那有很大的不同:64比128更好!”或“嗯,那是浪费时间。这两种方式都没有太大的区别。”如果差异很小,请忽略该超参数,然后尝试另一对。这样,您将慢慢地朝着最优方向前进,而不会浪费所有时间。

在实践中,我想将广泛的超参数调整留给学者,并采取更务实的方法。

但是,是的,您的方法论看起来很不错。我认为您正在考虑自己在做什么,这已经使您领先一步。