阻止要编入索引的网页的某些部分

时间:2012-03-28 18:51:14

标签: nutch

我抓了一个网站。页面上有很多常见内容,如下拉菜单,导航。如何防止这些内容被编入索引?

2 个答案:

答案 0 :(得分:1)

不确定,如果您仍然需要这样做,但为了防止您这样做,您可以尝试使用https://issues.apache.org/jira/browse/NUTCH-585找到的blacklist_whitelist插件。

插件允许您拥有要阻止或允许的元素列表,但不能同时阻止两者。 例如:

<property>
  <name>parser.html.blacklist</name>
  <value>noscript,div,#footer</value>
  <description>
   A comma-delimited list of css like tags to identify the elements which should
   NOT be parsed. Use this to tell the HTML parser to ignore the given elements, e.g. site navigation.
   It is allowed to only specify the element type (required), and optional its class name ('.')
   or ID ('#'). More complex expressions will not be parsed.
   Valid examples: div.header,span,p#test,div#main,ul,div.footercol
   Invalid expressions: div#head#part1,#footer,.inner#post
   Note that the elements and their children will be silently ignored by the parser,
   so verify the indexed content with Luke to confirm results.
   Use either 'parser.html.blacklist' or 'parser.html.whitelist', but not both of them at once. If so,
   only the whitelist is used.
  </description>
</property>

答案 1 :(得分:0)

我使用nutch代码库已经过去2年了,据我所知,这可能是这样。一旦内容进入nutch细分市场,您就无法从中删除下拉菜单,导航等部分,并且只保留所需的内容。

如果您或其他任何人知道该怎么做(当然没有修改代码),请分享相同的内容。