斯坦福NLP核心会话数据解析

时间:2018-03-01 13:15:29

标签: stanford-nlp

我想在我们的会话数据上使用Stanford dcoref包进行一些实验。我们的数据包含用户名(发言者)和话语。是否有可能将结构化数据作为输入(而不是原始文本)提供给Stanford dcoref注释器?如果是,会话输入数据的格式应该是什么?

谢谢你, -berfin

1 个答案:

答案 0 :(得分:0)

我能够让这个基本的例子起作用:

<doc id="speaker-example-1">
<post author="Joe Smith" datetime="2018-02-28T20:10:00" id="p1">
I am hungry!
</post>
<post author="Jane Smith" datetime="2018-02-28T20:10:05" id="p2">
Joe Smith is hungry.
</post>
</doc>

我使用了这些属性:

annotators = tokenize,cleanxml,ssplit,pos,lemma,ner,parse,coref

coref.conll = true
coref.algorithm = clustering

# Clean XML tags for SGM (move to sgm specific conf file?)
clean.xmltags = headline|dateline|text|post
clean.singlesentencetags = HEADLINE|DATELINE|SPEAKER|POSTER|POSTDATE
clean.sentenceendingtags = P|POST|QUOTE
clean.turntags = TURN|POST|QUOTE
clean.speakertags = SPEAKER|POSTER
clean.docIdtags = DOCID
clean.datetags = DATETIME|DATE|DATELINE
clean.doctypetags = DOCTYPE
clean.docAnnotations = docID=doc[id],doctype=doc[type],docsourcetype=doctype[source]
clean.sectiontags = HEADLINE|DATELINE|POST
clean.sectionAnnotations = sectionID=post[id],sectionDate=post[date|datetime],sectionDate=postdate,author=post[author],author=poster
clean.quotetags = quote
clean.quoteauthorattributes = orig_author
clean.tokenAnnotations = link=a[href],speaker=post[author],speaker=quote[orig_author]
clean.ssplitDiscardTokens = \\n|\\*NL\\*

此文档还有关于coref系统的重要信息:

https://stanfordnlp.github.io/CoreNLP/coref.html

我正在考虑在我的示例neural文档中使用.xml选项,但您可能必须将数据放入conll格式以使用{{运行我们的神经核心f 1}}设置。 conll数据包含会话数据以及其他文档格式的发言人信息。

本文档包含有关您必须使用conll算法才能使用的CoNLL格式的信息。

CoNLL 2012格式:http://conll.cemantix.org/2012/data.html

您需要创建一个具有类似目录结构的文件夹(但您可以将文件放入其中)

例如: neural

如果您运行此命令:

/Path/to/conll_2012_dir/v9/data/test/data/english/annotations/wb/eng/00/eng_0009.v9_auto_conll

具有以下属性:

java -Xmx20g edu.stanford.nlp.coref.CorefSystem -props speaker.properties

它会将连接输出文件写入coref.algorithm = clustering coref.conll = true coref.conllOutputPath = /Path/to/output_dir coref.data = /Path/to/conll_2012_dir

该命令应读入以/Path/to/output_dir

结尾的所有文件