stanford corenlp情绪训练集

时间:2017-03-02 08:18:48

标签: nlp stanford-nlp training-data

我是NLP领域的新手,尤其是情绪分析。我的目标是培训斯坦福CoreNLP情绪模型。我知道作为训练数据提供的句子应采用以下格式。

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))

我也知道我可以使用以下命令使用自己的训练数据创建情绪训练模型。

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

我的问题是,我是否可以访问用于训练模型的训练数据集?如果是,那我在哪里可以找到它? 另外,有没有办法可以将新句子附加到原始训练数据集并创建列车模型?

1 个答案:

答案 0 :(得分:0)

数据可在此处获取:http://nlp.stanford.edu/sentiment/

如果您只是使用相同的格式创建新数据集,则可以将文件放在目录中并将-trainPath设置为该目录。它将加载该目录中的所有文件并对其进行训练。

示例命令:

java -Xmx8g edu.stanford.nlp.sentiment.SentimentTraining -train -numHid 25 -trainPath trees/training-data/ -model model.ser.gz