关于文本分类的最新数据增强技术是什么?
我在线进行了一些研究,研究如何通过进行一些数据转换来扩展我的训练集,就像在图像分类上一样。 我发现了一些有趣的想法,例如:
同义词替换:从不停止单词的句子中随机选择n个单词。将这些单词中的每一个替换为随机选择的一个同义词。
随机插入:在不是停用词的句子中找到随机词的随机同义词。将该同义词插入句子中的随机位置。这样做n次。
随机交换:随机选择句子中的两个单词并交换其位置。这样做n次。
随机删除:以概率p随机删除句子中的每个单词。
但是关于使用诸如word2vec之类的预训练单词矢量表示模型没有什么。有原因吗?
使用word2vec进行数据扩充可能会帮助模型基于外部信息获取更多数据。例如,在专门针对外部在线评论训练的预训练向量空间中,用更接近的标记随机替换句子中的有毒评论标记。
这是一个好方法还是我错过了这项技术的一些重要缺点?
答案 0 :(得分:0)
您使用word2vec嵌入的想法通常会有所帮助。但是,这是上下文无关的嵌入。要更进一步,截至今天(2019年2月)的最新技术(SOTA)将使用在大型文本集上训练的语言模型,并使用自己的训练数据对自己的分类器进行微调。
两个SOTA模型是:
您提到的这些数据扩充方法也可能会有所帮助(取决于您的领域和所拥有的培训示例的数量)。其中一些实际上是在语言模型训练中使用的(例如,在BERT中,有一项任务是在训练前随机掩盖句子中的单词)。如果您是我,那么我将首先采用预先训练的模型,并使用当前的训练数据微调您自己的分类器。以此为基准,您可以尝试使用每种您喜欢的数据增强方法,看看它们是否真的有帮助。