我做了一个网络刮刀来抓取IMDB上的信息。它通过将URL中的数字更改为不同的随机数来遍历每个页面,然后在此新页面上重复Web抓取过程。
http://www.imdb.com/title/tt0800369/< - 为新电影更改此号码。
我如何在BFI网站上执行此操作?我无法看到从电影到电影的方式。
提前致谢!
答案 0 :(得分:1)
随机生成的链接不是遍历WWW的最有效方式... 你真的应该遵循你在其他页面上找到的URL。您可以使用似乎是最简单的Java爬虫的crawler4j。还有some alternatives。