标签生成算法

时间:2013-03-31 14:20:18

标签: algorithm parsing text tags

我正在考虑一种可以搜索一段文字寻找关键字的算法,例如我有一个单词数组:

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我想挑选像“安迪,默里,大卫,费雷尔,周日,公开赛,决赛”等重要词汇,但我对英语技术方面的了解有限,所以我不知道我应该是哪些词汇类型忽略。

有没有其他好的方法可以从你建议的文字中找到标签? /你知道我应该忽略的单词类型等吗?

p.s我希望任何代码都在c ++中,但这不是必需的:)

1 个答案:

答案 0 :(得分:3)

Information Retrieval领域的经典方法是使用tf-idf model

  • tf组件表示每个术语重复的次数 文件/句子 - 越“越好” - 因为它表明了文本中的重要性。
  • idf组件指示集合中有多少文档包含此术语,该数字越低 - 该单词越重要(因为如果文本中出现一个罕见的单词,它会帮助您使用此单词为了直觉,将这个文件与其他文件分开得更好 - '''这个词很可能对文档一无所知,而idf值确保它的权重很小。)