为关键字提取任务分割句子的最佳方法是什么?

时间:2015-10-14 03:19:22

标签: nlp stanford-nlp text-mining opennlp

我在大量文档上使用TD-IDF进行关键字提取。 Currenly我根据n-gram分割每个句子。更具体地说,我正在使用tri-gram。但是,这不是将每个句子分成构成关键字的整数的最佳方法。例如,像“三心脏旁路”这样的名词短语可能并不总是被检测为一个术语。

另一种将每个句子分块为其构成元素的替代方法看起来是语音标记的一部分,chunking中的Open NLP。在这种方法中,像“三心脏旁路”这样的短语总是被提取为整体,但缺点是在TF-IDF中,提取的术语(短语)的频率急剧下降。

有没有人对这两种方法有任何建议,或者有任何其他想法可以提高关键字的质量?

1 个答案:

答案 0 :(得分:0)

什么是:

  1. 您申请的目标是什么? - 影响标记化规则并定义关键字的质量

  2. 文件类型? - 如果您有论坛数据或新闻文章数据,则不一致。

  3. 您可以自己实施一些边界识别器,也可以使用openNLP中的统计模型。

    典型的管道是你应该首先尽可能简单地标记,应用停用词删除(依赖于语言),然后根据需要进行基于POS标记的过滤(但这是一项代价高昂的操作)。

    其他选项:java.text.BreakIterator,com.ibm.icu.text.BreakIterator,com.ibm.icu.text.RuleBasedBreakIterator ...