使用JSoup通过网页抓取网页

时间:2013-10-25 21:14:55

标签: java web screen-scraping jsoup

我做了一个网络刮刀来抓取IMDB上的信息。它通过将URL中的数字更改为不同的随机数来遍历每个页面,然后在此新页面上重复Web抓取过程。

http://www.imdb.com/title/tt0800369/< - 为新电影更改此号码。

我如何在BFI网站上执行此操作?我无法看到从电影到电影的方式。

提前致谢!

1 个答案:

答案 0 :(得分:1)

随机生成的链接不是遍历WWW的最有效方式... 你真的应该遵循你在其他页面上找到的URL。您可以使用似乎是最简单的Java爬虫的crawler4j。还有some alternatives