我正在迈出ML的第一步,特别是用于文本情感分析的分类器。我的方法是制作通常的80%训练数据集和20%的测试。拥有训练有素的模型当出现新要素时,在生产环境中进行的最佳方式是什么(初始数据集中不存在的文本中的新单词)?
答案 0 :(得分:0)
在分类任务中,必须在列车时间看到所有特征,并且以后不能将新特征添加到预测阶段。对于您的问题,您可以使用,Stemming或Lemmatizing。或者像LDA或Word2Vec这样的东西,他们训练了大量的文件
本章可能有用:https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
答案 1 :(得分:0)
您所描述的问题通常被称为"词汇量" (OOV)出现在测试集中但不出现在训练集中的单词。传统方法是用特殊标记表示每个OOV字,例如" UNKNOWN",并且实际上具有训练数据中的那些。这种方法在Section 4.3"语音和语言处理"中进行了更全面的讨论。由Jurafsky和Martin。
更现代的方法是使用Word2Vec。这是在神经网络中发现的真正advanced topic。