应用错误收集

所以，不要使用预先训练过的模型。他们不仅会丢失域名单词，而且即使使用共享的单词，也会在“新闻报道”中使用最常用的词语。或者＆＃39; Twitter＆＃39;可能与您的域名不符。

使用感兴趣的领域作为您的训练数据，训练您自己的单词向量或其他文档向量并不困难。

原始＆＃39;段落矢量＆＃39;的后续论文。 paper，＆＃34; Document Embedding With Paragraph Vectors＆＃34;，以主题敏感的方式专门评估段落向量（在PV-DBOW变体中）。对于具有相同编辑器分配的类别＆＃39;的维基百科文章对，它检查PV-DBOW是否将该对放置得比一些随机选择的第三篇文章更接近彼此。它对886,000张Arxiv论文进行了类似的检查。

即使您有一个小数据集，您也许可以使用类似的技术。即使练习提供了一个小数据集，也许其他具有相似词汇表的公共数据集可用于加厚模型。

（上述论文中使用的PV-DBOW模式，在doc-vector训练中添加了单词训练，类似于使用选项Doc2Vec的Python gensim库中的dm=0, dbow_words=1类。）< / p>

如何使用有限的数据集为科学文本生成标签？

1 个答案: