如何使用有限的数据集为科学文本生成标签?

时间:2017-07-11 05:41:23

标签: machine-learning classification word2vec text-classification text-recognition

我开始研究我的ML课程项目,即对科学文本进行分类并将其标记为主题为" A"或不。我遇到的问题是他们为我提供了有限的数据集。通常,科学文本使用复杂和不规则的单词,这些单词通常不会存在于预先训练过的word2vec模型中,例如谷歌新闻或推特,这些单词在文本含义方面的权重很大。所以我想知道,我该怎么做才能使用这些预先训练过的模型并预测新单词的意思?

1 个答案:

答案 0 :(得分:1)

所以,不要使用预先训练过的模型。他们不仅会丢失域名单词,而且即使使用共享的单词,也会在“新闻报道”中使用最常用的词语。或者' Twitter'可能与您的域名不符。

使用感兴趣的领域作为您的训练数据,训练您自己的单词向量或其他文档向量并不困难。

原始'段落矢量'的后续论文。 paper," Document Embedding With Paragraph Vectors",以主题敏感的方式专门评估段落向量(在PV-DBOW变体中)。对于具有相同编辑器分配的类别'的维基百科文章对,它检查PV-DBOW是否将该对放置得比一些随机选择的第三篇文章更接近彼此。它对886,000张Arxiv论文进行了类似的检查。

即使您有一个小数据集,您也许可以使用类似的技术。即使练习提供了一个小数据集,也许其他具有相似词汇表的公共数据集可用于加厚模型。

(上述论文中使用的PV-DBOW模式,在doc-vector训练中添加了单词训练,类似于使用选项Doc2Vec的Python gensim库中的dm=0, dbow_words=1类。)< / p>