我一直在与斯坦福大学的coreNLP合作,对我拥有的一些数据进行情绪分析,并且正在努力创建一个培训模型。我知道我们可以使用以下命令创建训练模型:
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
我知道train.txt文件中的内容。你得分句子并将它们放在train.txt中,如下所示:
(0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))
但我不明白dev.txt文件中的内容。 我多次阅读this问题,试图了解dev.txt中的内容,但我仍然不清楚。此外,手动评分这些句子已经变得很痛苦,有没有一种工具可以让它更容易?我担心我一直在使用错误数量的括号或其他一些愚蠢的错误。
另外,关于我的train.txt文件应该有多长时间的任何建议?我正在考虑获得1000个句子。这个数字太小,太大了吗?
感谢您的所有帮助:)
答案 0 :(得分:1)
dev.txt应该与train.txt相同,只是使用不同的句子集。请注意,相同的句子不应出现在dev.txt和train.txt中。开发集用于评估您在训练数据上训练的模型的质量。
我们不会分发用于标记情绪数据的工具。此类可能有助于构建数据:http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/sentiment/BuildBinarizedDataset.html
以下是用于情绪模型的火车,开发和测试集的大小:train = 8544,dev = 1101,test = 2210
答案 1 :(得分:1)
以下是评估模型的一些示例代码
x
您可以通过查看:
找到您需要导入的内容等EDU /斯坦福/ NLP /情绪/ SentimentTraining.java