什么是建议内容关键字的有效库?

时间:2011-09-11 02:38:44

标签: php javascript content-management-system tags

目前正设计在我的网站上使用的CMS。我想知道是否有任何免费库可用于根据内容创建标签。

示例

  我喜欢树木。树木是有叶子的植物。树上的叶子可以   多色。

会生成标签离开

库应该是PHP或JS。

编辑1:

我找到了一个简单的库来完成我的一半任务 - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php

我已经编辑了库规范应该是什么(感谢@NullUserException的指导) -

  • 计算所有单词(忽略大小写和变形),抛出停用词并选择频率最高的单词

  • 编辑文字以使更具特色的文字(可能具有较低的频率)具有更高的价值。例如,在示例中 - '多色'应该变得更高,因为它更具体于主题。但是它应该包含一个前缀,表明它与主题相关(它会变成叶子多色)。

编辑2:

算法应删除少于3个字符的字词,除非它们是大写字母或格式化

1 个答案:

答案 0 :(得分:1)

CMS上的标签是否已定义?如果是,您可以将内容中的文本编入索引,并使用针对您文本的所有已知标记进行搜索选择得分最高的标签并呈现给用户。

可以使用http://lucene.apache.org/solr/

进行索引和搜索

修改:请注意,我建议您从管理面板(例如wordpress)中定义和管理您的代码/关键字。否则,您最终会得到数千个从您的文章中生成的关键字,这些关键字永远无法帮助最终用户。