我正在使用SNLI数据集here进行句子分类任务。此数据集包含两个句子,需要判断第二句是否需要,与相矛盾<或> 中性。
出于分类目的,我已经实现了基于共生矩阵的SVM分类,其准确度大约为70%。
有人可以建议任何其他与NLP相关的分类策略,即使用bigrams或trigrams,因为我需要提出一些基线。
答案 0 :(得分:0)
您应该考虑使用k-means聚类,这对于此类任务可能听起来有些不同寻常,但是将其用作以下内容,您可能会获得可靠的基线结果。
(可选)您可以通过在训练数据上运行PCA来进一步提高模型的准确性。这基本上使您的功能无关,这可以减少噪音。