将数据转换为openNLP兼容的培训格式

时间:2017-05-27 08:33:16

标签: java sentiment-analysis opennlp

我正在尝试使用此处提供的moview审核数据集上的openNLP进行情感分析:http://www.cs.cornell.edu/people/pabo/movie-review-data/(极性数据集v2.0)

如何使用此数据集在openNLP中训练文档分类程序模型?

它包含相当多的评论已被归类为正面,负面评论到不同的文件夹集。

openNLP需要输入一个文件,每个评论都在带有类别标签前缀的新行上。我正在寻找一种简单的方法将此数据集转换为openNLP兼容格式。

2 个答案:

答案 0 :(得分:2)

OpenNLP目前不支持Movie Review格式。您可以创建一个可以转换为它的脚本Training Format,它看起来像这样:

neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.

但事先,OpenNLP文档分类程序并不适合情绪分析任务。在USCDataScience/SentimentAnalysisParser使用OpenNLP正在开发一个情绪分析组件。

答案 1 :(得分:0)

使用java,我将训练数据集转换为openNLP兼容的训练格式,即分类数据集并将其保存到磁盘上的文件中,例如:

  • 负片不符合期望
  • 正面电影很好

使用上面生成的训练集,训练有素的openNLP documentCategorizer模型。

要避免每次执行时都训练模型,请将训练过的模型保存在磁盘上。