我试图通过跟踪所有内部链接自动抓取给定网站,为此我一直在玩pythons mechanize
库,虽然这不允许我使用javascript和ajax内容。
Google Bot和其他主要搜索引擎蜘蛛/机器人如何做到这一点,还有另一种工具可以在这种情况下补充mechanize
吗?
我知道我可以对javascript进行逆向工程来弄清楚它在做什么以及它们模仿它,但我想自动化爬行,所以如果我首先必须梳理每个网站的javascript,那就不实用了。
答案 0 :(得分:3)
要实现这样一个 big 蜘蛛,在实现它之前需要解决一些问题:
href
标记中的<a>
值,然后发出这些新网址的请求。抓取网站时存在一些问题,它可能会帮助您实施强大的蜘蛛。 Here它是。