我正在开展一个项目,要求我收集关于某些主题的网站的大量网址。我想编写一个脚本,使用谷歌搜索特定术语,然后将结果中的URL保存到文件中。我该怎么做呢?我使用了一个名为xgoogle的模块,但它始终没有返回任何结果。
我在Windows 7上使用Python 2.6。
答案 0 :(得分:1)
它是一个宁静的API,这意味着它很容易通过python / js获取结果。我认为你只限于32个结果,但这应该足够了。它将返回一个很好的结构化对象,你可以使用它而无需对html解析做任何事情。
如果您想“抓取”,则可以使用urllib抓取每个网址并获取他们的内容,以及他们引用的网址,以及其他内容。
答案 1 :(得分:0)
确保更改urllib2
的用户代理。默认设置往往会被Google阻止。确保您遵守您正在编写脚本的搜索引擎的使用条款。