如何为句子中的每个块分配分数?

时间:2015-10-14 20:42:17

标签: nlp tf-idf part-of-speech

我正在处理关键字提取任务,我想在其中提取短语而不是单词。为了将每个句子分成有意义的部分,我先做一部分语音标记,然后根据语言规则提取名词短语。每个名词短语都是要提取的潜在关键词。但是,因为我只需要提取'每个给定文档的关键字,我需要一个很好的方法来排名提取的名词短语。一种简单的方法是计算每个术语(每个名词短语内)的TDIDF分数,然后每个名词短语的分数将是其组成术语的乘数。 TDIDF得分。我想知道是否有人对我简单的天真解决方案有更好的方法或想法?

1 个答案:

答案 0 :(得分:0)

您可以使用句子拆分器,例如open NLP中的一个而不是基于名词标识提取短语,因为在实践中它的准确性可能很低(你可以在一个短语中使用多个名词,而你使用的硬编码语言规则可能不健全,即,为所有可能的情况工作)。使用openNLP中的统计模型提取短语可能会更好,因为它带有置信度分数。

在任何情况下,一旦提取短语,您可以通过应用典型的NLP管道提取关键字,然后使用tf-idf对关键字进行排名。

我不建议在短语中加上tf-idf分数,因为这没有意义。但这可能取决于您的申请。你想对这个目标的短语进行排名吗? 您是否需要得分,与tf-idf类似,但是在句子级别?如果您希望使用术语tf-idf的向量和句子提取的置信度为整个短语分配分数。
或者,如果您搜索短语之间的相似性,那么您可以保留每个句子的tf-idf向量并应用余弦或其他similarity technique