如何从给定文本中自动识别标签(关键字)?

时间:2011-02-03 03:45:08

标签: algorithm full-text-search text-analysis

它应该像Firefox一样Delicious toolbar;它列出了可以点击的标签。效果如下所示:

enter image description here

代码应该能够找到文本的关键词。有什么好的算法或开源项目可以推荐吗?

我找到了this post,但对于我的具体需求来说,它有点过于笼统。

1 个答案:

答案 0 :(得分:7)

我认为你正在寻找其中一个答案,

简而言之 - 您希望从文本中提取unigrams,以某种方式表示其中的概念 - 执行此操作的技术称为Pointwise Mutual Information,在前两个链接中以示例进行说明。使用Python NLTK框架(已经内置了大量这些算法)可能是您工作的最佳起点。

祝你好运!