通过Solr为内容生成关键字

时间:2014-10-17 12:12:25

标签: php solr lucene

我正在为我的新Solr应用程序整合PHP

由于我是solr部分的新手,我想知道是否可以通过solr为每个内容页面生成一些有用的标签?像自动标记机制。

提前致谢...

P.S我的内容有波斯语和英语两种版本。

2 个答案:

答案 0 :(得分:2)

  

类似于自动标记机制。

是的,你可以建立类似的东西。

有两种不同的方法可以实现:

  1. 使用Clustering Component from Solr构建文档组,并通过solr标记这些文档。标签就像您正在寻找的标签。
  2. 使用MLT功能实现标记。
  3. 我使用1.)方法启动了一个自动标记项目,并取得了中等成功。为一组文档查找标签是一个艰难的过程。
    但幸运的是,我有一些已经taggegd的文件。如果您还有一些带有效标签的文档,那么您可以使用2.)方法将这些文档作为开始学习的基础:

    获取没有标签的文档,并对带有标签的文档执行MLT搜索。从您喜欢的文档中获取标记并计算它们。根据计数,将一个或多个标记应用于untaggegd文档。就我而言,这非常有效。方法2.)是基于机器的学习的一种实施方式,但只有5%的工作输入,你将获得95%的成功。

答案 1 :(得分:1)

因为它是一个PHP应用程序,如果你可以在php中生成标签,然后插入/更新到Solr,这里有几个选项 -

  • 如果使用网络服务没问题,请检查Yahoo's Term Extractor
  • 如果您可以/想要自己托管术语提取服务(可能在本地服务器中),请检查FiveFilters
  • Here php函数,用于从文本块中提取有价值的单词。肯定不如 Yahoo Term Extractor 那么高效,但它可能适合你。