如何在网页中关闭/打开索引

时间:2013-05-17 09:55:16

标签: solr nutch apache-tika

我在Ubuntu Server 12.04上使用Nutch 1.6和Solr 4.3 我想打开和关闭内容索引。有没有办法在我的HTML页面中指定此行为,以便Solr可以相应地运行?

例如,在使用Google Search Appliance时,我会在页面上不需要编入索引的内容(页眉,页脚,版权字符串等)周围使用“googleon” - “googleoff”标记。

谢谢

2 个答案:

答案 0 :(得分:3)

您需要为Nutch创建一个自定义插件才能完成此行为。以下是一些与示例相关的链接。

答案 1 :(得分:0)

有一个文本文件“robots.txt”,它向搜索引擎提供有关允许或不查找内容的程序的html页面的信息。在链接FAQ robots.txt: How to stop indexing中,您可以找到所有信息。