SNLI数据集的句子分类

时间:2017-11-12 04:47:23

标签: python nlp stanford-nlp

我正在使用SNLI数据集here进行句子分类任务。此数据集包含两个句子,需要判断第二句是否需要相矛盾<或> 中性

出于分类目的,我已经实现了基于共生矩阵的SVM分类,其准确度大约为70%。

有人可以建议任何其他与NLP相关的分类策略,即使用bigrams或trigrams,因为我需要提出一些基线。

1 个答案:

答案 0 :(得分:0)

您应该考虑使用k-means聚类,这对于此类任务可能听起来有些不同寻常,但是将其用作以下内容,您可能会获得可靠的基线结果。

  1. 在训练集中取每个类别的单词向量平均值,在您的情况下,您最终会得到三个向量,并使用它来训练k均值为k = 3的k-means模型。
  2. 然后,确定哪个&#34;标签&#34;对应于每个类别(例如,通过预测我们刚刚计算并查看每个标签的三个平均向量的类别),使用该模型预测您的测试集。
  3. (可选)您可以通过在训练数据上运行PCA来进一步提高模型的准确性。这基本上使您的功能无关,这可以减少噪音。