我正在寻找与德语中著名的IMDB电影评论数据集(here)类似的德语注释数据集。
背景是我想将德语文本分为多个类别(从正面情绪/负面情绪/中性开始)。
我还没有找到经过情感分析预训练的德语单词嵌入,也没有找到合适的数据集来训练自己的单词嵌入。
任何建议将不胜感激!
答案 0 :(得分:0)
并不是您想要的,但是在这里您可以找到用于文本分类的德语数据集: https://tblock.github.io/10kGNAD/
答案 1 :(得分:0)
用于自然语言处理任务(例如情感分析)的数据集称为 Corpus 。
为什么重要?
选择语料库时要考虑什么?思考以下问题:
因此,不仅要检查类似于IMDB的任何语料库,还要首先检查您的语言环境中是否存在带注释的语料库。如果有一个,那就好。否则,请构建您自己的语言,获得比通用语料库更好的最低功能语料库不是很困难-如果您决定遵循此方法,请检查开源注释工具Doccano:https://github.com/chakki-works/doccano。
注意:情感分析似乎对任何通用语料都适用,但是请记住,每个上下文都有其特殊的术语,可以代表好事或坏事。