我正在尝试创建一个Web应用程序,用户可以从下拉列表中选择一个电影的名称(例如“Skyfall”)。然后我想执行一个爬虫去rottentomatoes.com并获取与这部电影有关的所有html页面。我使用Tomcat在Eclipse中创建了我的Web应用程序(GUI)。我有一个网络爬虫:crawler4j,如果我选择将主.java文件作为应用程序运行,它就会运行。我怎样才能将这两者结合起来?
答案 0 :(得分:1)
我通过实现一个激活爬虫的Servlet来解决这个问题,正如Marvo在评论中所建议的那样。
答案 1 :(得分:0)
您可以使用Beautiful Soup,我会一直使用它来获取其他网站的内容
或者,您也可以使用HtmlUnit