我正在为nutch开发自定义解析插件并遇到问题。我想抓取种子网址的特定区域中的所有网址。但是nutch忽略了外部链接,这些链接没有被抓取。
例如:种子网址 - https://in.news.yahoo.com
它包含指向timesofindia.com,thehindu.com等网站的链接,但这些链接不会被抓取。
我的nutch-site.xml包含: -
<property>
<name>db.ignore.external.links</name>
<value>false</value>
</property>
regex-url过滤器接受任何其他内容。(使用正则表达式+。)。 我想知道为什么nutch忽略作为种子给出的url中的某些外部链接。请帮忙
答案 0 :(得分:2)
试试这个,我找到了解决方法:
第2步的代码示例:
List<Outlink> outLinks=new ArrayList<Outlink>();
Outlink outLink;
String link;
Elements elements = document.select("div.show a[href]");
for (Element element : elements) {
link=element.absUrl("href");
outLink=new Outlink(absoluteUrl,element.text());
outLinks.add(outLink);
}
Outlink[] newOutLinks = (Outlink[])outLinks.toArray(new Outlink[outLinks.size()]);