使用Solr等网站上最常用的词语

时间:2011-10-11 08:46:34

标签: php solr

我想生成网站上使用的最多单词列表。应用程序应该抓取网站的内容。 有谁知道这是否可以通过Solr或任何其他技术来完成?

列表可以是php对象/数组或xml文件。

2 个答案:

答案 0 :(得分:4)

您可能需要查看http://wiki.apache.org/solr/TermsComponent

示例 -

http://host:port/solr/core/terms?terms.fl=title&terms.sort=count

将为您提供按计数排序的字段标题的所有条款(默认)

terms.fl - Field you want to check the terms on 
terms.sort={count|index} - If count, sorts the terms by the term frequency (highest count first). If index, returns the terms in index order. Default is to sort by count.

这给出了通过标记器和过滤器的索引术语,因此如果您需要术语,则可以改变场分析。 (可能使用字段类型字符串)

答案 1 :(得分:1)

SOLR是一个搜索引擎。它不会抓取网站。您需要使用scrapy http://scrapy.org/或类似工具制作一个简单的网站抓取工具。设计SOLR模式以记录数据,抓取网站,将记录更新发送到SOLR。您可以通过Web管理界面通过SOLR管理菜单上的SCHEMA BROWSER选项来回答您的具体问题。单击DYNAMIC FIELDS,选择您感兴趣的字段,然后看到10.将数字更改为50,按ENTER键进入前50位。