我希望能够从给定的文本中提取引文及其发言人。为此,我遵循文章http://langtech.jrc.ec.europa.eu/Documents/0709_RANLP_Quotation-detection_BP-RS-CB_final.pdf
第5.2节中提到的规则规则如下:
(1) quote-mark QUOTE quote-mark [,] verb [modifier]
[determiner] [title] name
e.g. "blah blah", said again the journalist John Smith.
(2) name [, up to 60 characters ,] verb [:|that] quote-mark
QUOTE quote-mark
e.g. John Smith, supporting AFG, said: "blah blah".
(3) quote-mark QUOTE quote-mark [; or ,] [title] name
[modifier] verb
e.g. "blah blah", Mr John Smith said.
“引号”是一般的开始和结束引号。 “QUOTE”是实际引用文本,“修饰符”是副词,“动词”是需要出现在动词词典中的报告/通信动词,“title”和“name”是标题和名称人。这些名字将被视为报价单。
对于每个给定的文本,我有一组NLP注释,表明文本中的哪些单词是动词,副词,名称和标题。
我正在寻找一种方法来匹配给定的文本和NLP注释与上面提到的规则,并提出一组引用及其发言者。我知道我可以编写硬编码逻辑来表示这些规则,但我想使这些规则可配置。
有没有办法使用正则表达式,语法解析器或其他方法来处理这个问题?