java - 使用JSoup通过网页抓取网页 - Thinbug

使用JSoup通过网页抓取网页

时间：2013-10-25 21:14:55

标签： java web screen-scraping jsoup

我做了一个网络刮刀来抓取IMDB上的信息。它通过将URL中的数字更改为不同的随机数来遍历每个页面，然后在此新页面上重复Web抓取过程。

http://www.imdb.com/title/tt0800369/＆lt; - 为新电影更改此号码。

我如何在BFI网站上执行此操作？我无法看到从电影到电影的方式。

提前致谢！

1 个答案:

答案 0 :(得分：1)

随机生成的链接不是遍历WWW的最有效方式... 你真的应该遵循你在其他页面上找到的URL。您可以使用似乎是最简单的Java爬虫的crawler4j。还有some alternatives。