应用错误收集

时间：2010-09-17 04:04:28

标签： python windows search hyperlink

我正在开展一个项目，要求我收集关于某些主题的网站的大量网址。我想编写一个脚本，使用谷歌搜索特定术语，然后将结果中的URL保存到文件中。我该怎么做呢？我使用了一个名为xgoogle的模块，但它始终没有返回任何结果。

我在Windows 7上使用Python 2.6。

答案 0 :(得分：1)

谷歌有一个API库。我建议你使用它：http://code.google.com/apis/ajaxsearch/

它是一个宁静的API，这意味着它很容易通过python / js获取结果。我认为你只限于32个结果，但这应该足够了。它将返回一个很好的结构化对象，你可以使用它而无需对html解析做任何事情。

如果您想“抓取”，则可以使用urllib抓取每个网址并获取他们的内容，以及他们引用的网址，以及其他内容。

答案 1 :(得分：0)

确保更改urllib2的用户代理。默认设置往往会被Google阻止。确保您遵守您正在编写脚本的搜索引擎的使用条款。