Question

我正在考虑一种可以搜索一段文字寻找关键字的算法，例如我有一个单词数组：

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我想挑选像“安迪，默里，大卫，费雷尔，周日，公开赛，决赛”等重要词汇，但我对英语技术方面的了解有限，所以我不知道我应该是哪些词汇类型忽略。

有没有其他好的方法可以从你建议的文字中找到标签？ /你知道我应该忽略的单词类型等吗？

p.s我希望任何代码都在c ++中，但这不是必需的：）

Answer 1

Information Retrieval领域的经典方法是使用tf-idf model。

tf组件表示每个术语重复的次数文件/句子 - 越“越好” - 因为它表明了文本中的重要性。
idf组件指示集合中有多少文档包含此术语，该数字越低 - 该单词越重要（因为如果文本中出现一个罕见的单词，它会帮助您使用此单词为了直觉，将这个文件与其他文件分开得更好 - '''这个词很可能对文档一无所知，而idf值确保它的权重很小。）

标签生成算法

1 个答案: