用于训练文本分类器的德语数据集

时间:2019-04-03 14:21:19

标签: machine-learning nlp word2vec sentiment-analysis text-classification

我正在寻找与德语中著名的IMDB电影评论数据集(here)类似的德语注释数据集。
背景是我想将德语文本分为多个类别(从正面情绪/负面情绪/中性开始)。
我还没有找到经过情感分析预训练的德语单词嵌入,也没有找到合适的数据集来训练自己的单词嵌入。
任何建议将不胜感激!

2 个答案:

答案 0 :(得分:0)

并不是您想要的,但是在这里您可以找到用于文本分类的德语数据集: https://tblock.github.io/10kGNAD/

https://ofai.github.io/million-post-corpus/

答案 1 :(得分:0)

用于自然语言处理任务(例如情感分析)的数据集称为 Corpus

为什么重要?

  • 他们为模型提供上下文 功能(用于分类的词)。
    • 如果您正在使用某些嵌入,则语料库提供了获取用于确定模型的向量的方法。

选择语料库时要考虑什么?思考以下问题:

  • 我选择的语料库是否为我的模型提供了重要的功能?
  • 语料库能很好地代表我的情况吗?是同一件事还是太笼统了?

因此,不仅要检查类似于IMDB的任何语料库,还要首先检查您的语言环境中是否存在带注释的语料库。如果有一个,那就好。否则,请构建您自己的语言,获得比通用语料库更好的最低功能语料库不是很困难-如果您决定遵循此方法,请检查开源注释工具Doccano:https://github.com/chakki-works/doccano

注意:情感分析似乎对任何通用语料都适用,但是请记住,每个上下文都有其特殊的术语,可以代表好事或坏事。