machine-learning - 用于训练文本分类器的德语数据集

用于训练文本分类器的德语数据集

时间：2019-04-03 14:21:19

标签： machine-learning nlp word2vec sentiment-analysis text-classification

我正在寻找与德语中著名的IMDB电影评论数据集（here）类似的德语注释数据集。
背景是我想将德语文本分为多个类别（从正面情绪/负面情绪/中性开始）。
我还没有找到经过情感分析预训练的德语单词嵌入，也没有找到合适的数据集来训练自己的单词嵌入。
任何建议将不胜感激！

2 个答案:

答案 0 :(得分：0)

并不是您想要的，但是在这里您可以找到用于文本分类的德语数据集： https://tblock.github.io/10kGNAD/

https://ofai.github.io/million-post-corpus/

答案 1 :(得分：0)

用于自然语言处理任务（例如情感分析）的数据集称为 Corpus 。

为什么重要？

他们为模型提供上下文 功能（用于分类的词）。
- 如果您正在使用某些嵌入，则语料库提供了获取用于确定模型的向量的方法。

选择语料库时要考虑什么？思考以下问题：

我选择的语料库是否为我的模型提供了重要的功能？
语料库能很好地代表我的情况吗？是同一件事还是太笼统了？

因此，不仅要检查类似于IMDB的任何语料库，还要首先检查您的语言环境中是否存在带注释的语料库。如果有一个，那就好。否则，请构建您自己的语言，获得比通用语料库更好的最低功能语料库不是很困难-如果您决定遵循此方法，请检查开源注释工具Doccano：https://github.com/chakki-works/doccano。

注意：情感分析似乎对任何通用语料都适用，但是请记住，每个上下文都有其特殊的术语，可以代表好事或坏事。