我想生成网站上使用的最多单词列表。应用程序应该抓取网站的内容。 有谁知道这是否可以通过Solr或任何其他技术来完成?
列表可以是php对象/数组或xml文件。
答案 0 :(得分:4)
您可能需要查看http://wiki.apache.org/solr/TermsComponent
示例 -
http://host:port/solr/core/terms?terms.fl=title&terms.sort=count
将为您提供按计数排序的字段标题的所有条款(默认)
terms.fl - Field you want to check the terms on
terms.sort={count|index} - If count, sorts the terms by the term frequency (highest count first). If index, returns the terms in index order. Default is to sort by count.
这给出了通过标记器和过滤器的索引术语,因此如果您需要术语,则可以改变场分析。 (可能使用字段类型字符串)
答案 1 :(得分:1)
SOLR是一个搜索引擎。它不会抓取网站。您需要使用scrapy
http://scrapy.org/或类似工具制作一个简单的网站抓取工具。设计SOLR模式以记录数据,抓取网站,将记录更新发送到SOLR。您可以通过Web管理界面通过SOLR管理菜单上的SCHEMA BROWSER选项来回答您的具体问题。单击DYNAMIC FIELDS,选择您感兴趣的字段,然后看到10.将数字更改为50,按ENTER键进入前50位。