我正在用Java开发一个Web爬虫。我正在寻找一个很好的项目来开发基于它的爬虫。然而,实际上有超过几百个用Java编写的爬虫。我正在寻找的是相当简单的抓取工具:
答案 0 :(得分:2)
我正在寻找的是一个相当简单的爬虫...
你真的不会发现这一点,爬虫没什么好看的!具体而言,拥有这些功能(尤其是最后一个要点)并不简单:
Nutch是一款功能齐全的Java爬虫,可满足您的大部分要求:http://nutch.apache.org/
此外,我建议您查看此问题:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library