设置crawler4j的指南

时间:2011-02-16 05:17:25

标签: java web-crawler crawler4j

我想设置抓取工具来抓取网站,让我们说博客,然后只获取网站中的链接并将链接粘贴到文本文件中。你可以一步一步地指导我设置爬虫吗?我正在使用Eclipse。

1 个答案:

答案 0 :(得分:0)

Jsoup将完成html解析所需的一切。 Jsoup是一个用于处理html源代码的java api。你可以得到

  1. 表,您可以使用该表解析每一行或每列。
  2. 所有链接的列表和该html的源导入(导入如 css和js文件)。
  3. 特定标签的数据。
  4. 等等。

    出于您的目的,here是示例代码。

    希望这会对你有所帮助。