将字符串数据转换为PTB格式以训练斯坦福情感分析工具

时间:2015-05-20 10:06:31

标签: nlp stanford-nlp sentiment-analysis training-data

如何将字符串数据(如推文)转换为PTB格式来训练斯坦福情感分析工具?

2 个答案:

答案 0 :(得分:3)

这不是简单地从一种格式转换为另一种格式的问题。正如@lenz所提到的,PTB是解析器的输出格式 - 这意味着至少需要将文本转换为语法分析。一个自动解析器(例如,Berkeley / Stanford / BLLIP解析器)可以在这里找到一些方法,但是(1)自动解析器可能在Twitter文本上很糟糕,(2)如果我记得你需要二进制解析树,这意味着对原始解析进行了一些操作。

此外,要训练情绪模型,您需要用情绪注释您的数据。也就是说,对于解析树的每个成分,您需要说明该成分的收益率的情绪标签是什么。如果有一个自动工具可以执行此操作,则无需培训新模型。

答案 1 :(得分:2)

Stanford CoreNLP软件包有一个java类文件,用于转换PTB格式的文本以进行培训。

类名是BuildBinarizedDataset