关于创建斯坦福CoreNLP培训模型的问题

时间:2015-11-14 20:08:53

标签: stanford-nlp sentiment-analysis training-data scoring

我一直在与斯坦福大学的coreNLP合作,对我拥有的一些数据进行情绪分析,并且正在努力创建一个培训模型。我知道我们可以使用以下命令创建训练模型:

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

我知道train.txt文件中的内容。你得分句子并将它们放在train.txt中,如下所示:  (0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))

但我不明白dev.txt文件中的内容。 我多次阅读this问题,试图了解dev.txt中的内容,但我仍然不清楚。此外,手动评分这些句子已经变得很痛苦,有没有一种工具可以让它更容易?我担心我一直在使用错误数量的括号或其他一些愚蠢的错误。

另外,关于我的train.txt文件应该有多长时间的任何建议?我正在考虑获得1000个句子。这个数字太小,太大了吗?

感谢您的所有帮助:)

2 个答案:

答案 0 :(得分:1)

  1. dev.txt应该与train.txt相同,只是使用不同的句子集。请注意,相同的句子不应出现在dev.txt和train.txt中。开发集用于评估您在训练数据上训练的模型的质量。

  2. 我们不会分发用于标记情绪数据的工具。此类可能有助于构建数据:http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/sentiment/BuildBinarizedDataset.html

  3. 以下是用于情绪模型的火车,开发和测试集的大小:train = 8544,dev = 1101,test = 2210

答案 1 :(得分:1)

以下是评估模型的一些示例代码

x

您可以通过查看:

找到您需要导入的内容等

EDU /斯坦福/ NLP /情绪/ SentimentTraining.java