我正在尝试使用此处提供的moview审核数据集上的openNLP进行情感分析:http://www.cs.cornell.edu/people/pabo/movie-review-data/(极性数据集v2.0)
如何使用此数据集在openNLP中训练文档分类程序模型?
它包含相当多的评论已被归类为正面,负面评论到不同的文件夹集。
openNLP需要输入一个文件,每个评论都在带有类别标签前缀的新行上。我正在寻找一种简单的方法将此数据集转换为openNLP兼容格式。
答案 0 :(得分:2)
OpenNLP目前不支持Movie Review格式。您可以创建一个可以转换为它的脚本Training Format,它看起来像这样:
neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.
但事先,OpenNLP文档分类程序并不适合情绪分析任务。在USCDataScience/SentimentAnalysisParser使用OpenNLP正在开发一个情绪分析组件。
答案 1 :(得分:0)
使用java,我将训练数据集转换为openNLP兼容的训练格式,即分类数据集并将其保存到磁盘上的文件中,例如:
使用上面生成的训练集,训练有素的openNLP documentCategorizer模型。
要避免每次执行时都训练模型,请将训练过的模型保存在磁盘上。