我正在考虑一种可以搜索一段文字寻找关键字的算法,例如我有一个单词数组:
Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];
我想挑选像“安迪,默里,大卫,费雷尔,周日,公开赛,决赛”等重要词汇,但我对英语技术方面的了解有限,所以我不知道我应该是哪些词汇类型忽略。
有没有其他好的方法可以从你建议的文字中找到标签? /你知道我应该忽略的单词类型等吗?
p.s我希望任何代码都在c ++中,但这不是必需的:)
答案 0 :(得分:3)
Information Retrieval领域的经典方法是使用tf-idf model。