从文本及其发言者中提取引文的方法

时间:2015-07-15 18:18:20

标签: java regex machine-learning nlp grammar

我希望能够从给定的文本中提取引文及其发言人。为此,我遵循文章http://langtech.jrc.ec.europa.eu/Documents/0709_RANLP_Quotation-detection_BP-RS-CB_final.pdf

第5.2节中提到的规则

规则如下:

(1) quote-mark QUOTE quote-mark [,] verb [modifier]
[determiner] [title] name
e.g. "blah blah", said again the journalist John Smith.

(2) name [, up to 60 characters ,] verb [:|that] quote-mark
QUOTE quote-mark
e.g. John Smith, supporting AFG, said: "blah blah".

(3) quote-mark QUOTE quote-mark [; or ,] [title] name
[modifier] verb
e.g. "blah blah", Mr John Smith said.

“引号”是一般的开始和结束引号。 “QUOTE”是实际引用文本,“修饰符”是副词,“动词”是需要出现在动词词典中的报告/通信动词,“title”和“name”是标题和名称人。这些名字将被视为报价单。

对于每个给定的文本,我有一组NLP注释,表明文本中的哪些单词是动词,副词,名称和标题。

我正在寻找一种方法来匹配给定的文本和NLP注释与上面提到的规则,并提出一组引用及其发言者。我知道我可以编写硬编码逻辑来表示这些规则,但我想使这些规则可配置。

有没有办法使用正则表达式,语法解析器或其他方法来处理这个问题?

0 个答案:

没有答案