使用crawler4j抓取网站时获取链接的链接文本

时间:2012-03-07 23:49:07

标签: html hyperlink web-crawler crawler4j

我正在使用crawler4j抓取网站。当我访问页面时,我想获取所有链接的链接文本,而不仅仅是完整的URL。这可能吗?

提前致谢。

1 个答案:

答案 0 :(得分:1)

在从WebCrawler派生的类中,获取页面的内容,然后应用正则表达式。

Map<String, String> urlLinkText = new HashMap<String, String>();
String content = new String(page.getContentData(), page.getContentCharset());
Pattern pattern = Pattern.compile("<a[^>]*href=\"([^\"]*)\"[^>]*>([^<]*)</a[^>]*>", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
    urlLinkText.put(matcher.group(1), matcher.group(2));
}

然后将urlLinkText粘贴到爬行完成后可以访问的地方。例如,您可以将其设置为爬虫类的私有成员并添加getter。