什么是短文本情感分类任务所需的最小训练集大小

时间:2016-03-30 08:34:17

标签: python machine-learning sentiment-analysis keras lstm

我正在尝试培训LSTM模型,用于短文本(例如产品评论和推文)的情感分类任务。

我正在寻找一个标记正面/负面/中立的训练集,是否有这样的东西(免费用于研究)那里真的是基于人类标签而不是开始或表情符号?我发现只有很小的训练集导致我的成绩不佳。我试图增加我的网络和堆叠层的大小,但没有改善。

这样的训练集的最小尺寸是什么,以便开始获得合理的结果(F1> 0.8)。

1 个答案:

答案 0 :(得分:0)

你真的只需要列出100个左右的负面和正面形容词。

请参阅:
http://na2english.wikispaces.com/file/view/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf/400672720/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf

http://arxiv.org/ftp/arxiv/papers/1011/1011.4623.pdf

如果您使用它们,显然会引用它们,但语言是免费的,因此您可以将它们用于您的工作。

可能比您构建的数据库的大小更重要的是选择针对您的特定应用程序的单词以提高效率。

您是将这个项目用于特定的商业用途还是更广泛的研究工作?