我正在使用coreNLP进行情感分析,我对使用自己的数据集进行培训有一些问题,如果有人能够给我一些想法,这将是一个很好的帮助。
根据https://nlp.stanford.edu/sentiment/code.html来训练自己的数据集
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
dev.txt是什么以及我需要在此文件中添加哪些数据?我也检查了PTBTokenizer类,但我没有找到任何text2PTB令牌,所以我可以训练我的数据?
有人可以告诉我如何使用我的数据进行训练?
例如测试数据
答案 0 :(得分:1)
我找到了适用于我的答案
java -cp "*" -mx5g edu.stanford.nlp.sentiment.BuildBinarizedDataset -input sample.txt
sample.text将包含训练数据, 例 1今天不是好日子。 3好 美好的一天 3美好的一天 这将生成
(1(1今天)(1(1(1(1)(1))(3(1a)(3(3 good)(1天))))(1。)))< / p>