nutch履带式相对网址问题

时间:2010-09-29 10:20:49

标签: java lucene solr nutch

有没有人遇到标准html解析器插件处理相对URL的方式有问题?有一个网站 - http://xxxx/asp/list_books.asp?id_f=11327 当浏览其href设置为的链接时 'id_r = 442安培;?ID = 41&安培;为了=' 浏览器自然会带你去 http://xxxx/asp/list_books.asp?id_r=442&id=41&order=

然而,在nutch中,当从页面解析出外链时,链接最终会出现 http://xxxx/asp/?id_r=442&id=41&order=

当然是坏了。那么为什么list_books.asp消失了?

1 个答案:

答案 0 :(得分:3)

已为此记录bug。看一看。