Question

我一直在与斯坦福大学的coreNLP合作，对我拥有的一些数据进行情绪分析，并且正在努力创建一个培训模型。我知道我们可以使用以下命令创建训练模型：

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

我知道train.txt文件中的内容。你得分句子并将它们放在train.txt中，如下所示： (0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))

但我不明白dev.txt文件中的内容。我多次阅读this问题，试图了解dev.txt中的内容，但我仍然不清楚。此外，手动评分这些句子已经变得很痛苦，有没有一种工具可以让它更容易？我担心我一直在使用错误数量的括号或其他一些愚蠢的错误。

另外，关于我的train.txt文件应该有多长时间的任何建议？我正在考虑获得1000个句子。这个数字太小，太大了吗？

感谢您的所有帮助：）

Answer 1

dev.txt应该与train.txt相同，只是使用不同的句子集。请注意，相同的句子不应出现在dev.txt和train.txt中。开发集用于评估您在训练数据上训练的模型的质量。
我们不会分发用于标记情绪数据的工具。此类可能有助于构建数据：http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/sentiment/BuildBinarizedDataset.html
以下是用于情绪模型的火车，开发和测试集的大小：train = 8544，dev = 1101，test = 2210

Answer 2

以下是评估模型的一些示例代码

您可以通过查看：

找到您需要导入的内容等

EDU /斯坦福/ NLP /情绪/ SentimentTraining.java