从短片段中提取关键短语

时间:2017-08-23 05:48:44

标签: nlp nltk stanford-nlp

虽然有大量关于如何从文档中提取关键词/短语的信息,但我找不到任何关于如何从片段(不一定是句子)中提取关键短语的技巧。以下是一些例子:

  • 中国的艺术博物馆和画廊 - >博物馆和画廊Naval
  • 日俄战争的战役 - >海战,日俄战争

可以建议简单地使用NLP工具包并解析树并提取名词短语。我想知道是否有更好的方法。

1 个答案:

答案 0 :(得分:1)

该方法取决于您要提取的短语或关键字类型。

如果短语的类型是明确定义的,最好的方法可能是解析片段,然后用一些规则从解析树中提取。只要片段是正确的英语,解析器就应该以与完整句子大致相同的质量处理它们。

更一般地说,您也可以将此问题作为机器学习问题来解决。如果您有足够的数据,即片段对和应该提取的内容,您可以使用它来训练模型。常见的方法是

在NLP文献中,您可以查找句子压缩/摘要。最近提出上述第二种方法的论文是: