我在Ubuntu Server 12.04上使用Nutch 1.6和Solr 4.3 我想打开和关闭内容索引。有没有办法在我的HTML页面中指定此行为,以便Solr可以相应地运行?
例如,在使用Google Search Appliance时,我会在页面上不需要编入索引的内容(页眉,页脚,版权字符串等)周围使用“googleon” - “googleoff”标记。
谢谢
答案 0 :(得分:3)
您需要为Nutch创建一个自定义插件才能完成此行为。以下是一些与示例相关的链接。
答案 1 :(得分:0)
有一个文本文件“robots.txt”,它向搜索引擎提供有关允许或不查找内容的程序的html页面的信息。在链接FAQ robots.txt: How to stop indexing中,您可以找到所有信息。