抓取工具获取外部网站搜索结果

时间:2009-12-16 06:15:38

标签: java selenium web-crawler nutch

  1. 我可以使用哪种最佳做法和图书馆来锁定外部网站上的搜索文本框并收集搜索结果?
  2. 如何使用不同的搜索框和复选框处理网站并收集结果?
  3. 可以使用Selenium来自动化吗?
  4. 我应该使用Heritrix还是nutch?哪一个更好?我听说nutch带有插件。哪一个拥有更大的社区?

1 个答案:

答案 0 :(得分:1)

你可以使用:

  • Selenium API
  • 的HtmlUnit
  • 的HTMLParser