如何开始构建基于Java的Web抓取工具

时间:2012-07-06 13:49:56

标签: java web-scraping information-extraction

开始构建网络抓取工具的最佳(也是最短)方式是什么,它足够灵活,可以与几乎所有类型的网站一起使用,并能够将这些网站存储在数据库中进行检索。

我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”会在搜索之前将所有网站缓存到他们的服务器。

这是我研究项目的组成部分之一。

如果已经有一些开源项目,请告诉我,这将使我的工作更轻松。

我更喜欢java来构建它。

1 个答案:

答案 0 :(得分:2)

例如heritrix之类的东西?