术语提取:从文本生成标签

时间:2009-07-08 21:08:06

标签: parsing tags solr tokenize

如何获得与http://developer.yahoo.com/search/content/V1/termExtraction.html

相同的结果

此问题之前已被问过很多次。

尝试使用现有解决方案来解决这个问题我偶然发现“文本分析”Solr在索引之前对文档执行,如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述 - 其中也包括词干。

因此,最终索引将主要包括用于描述文档的术语。

是否有解决方案可直接使用分析器,标记器和令牌过滤器?如果solr是出路,那么从solr索引获取这些数据的最佳方法是什么?

2 个答案:

答案 0 :(得分:4)

Solr是一种创建自定义搜索引擎的方法。它似乎不适合这项工作。 Wikipedia article about term extraction在其“外部链接”部分列出了几个用于术语提取的Web应用程序。 OpenNLP有一系列可能有用的工具。 Its Chunker可能会有所帮助。

答案 1 :(得分:1)

请询问解析后的术语,例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

参见TermsComponent 了解更多信息。