我意识到这个问题的版本已被提出,前几天我花了几个小时尝试了一些策略。
我想用的是使用python来抓取谷歌搜索中的所有网址,我可以在单独的脚本中使用它来对大型语料库进行文本分析(主要是新闻网站)。这似乎相对简单,但我尝试过的尝试都没有正常工作。
这就像我得到的那样接近:
from google import search
for url in search('site:cbc.ca "kinder morgan" and "trans mountain" and protest*', stop=100):
print(url)
在我被踢之前,这返回了大约300个网址。使用这些参数的实际搜索提供了大约1000个结果,我喜欢所有这些结果。
首先:这可能吗?第二:有人有任何建议吗?我基本上只想要一个我可以在另一个脚本中使用的所有URL的txt文件。
答案 0 :(得分:0)
似乎此软件包使用屏幕抓取功能从Google检索搜索结果,因此它无法与Google的服务条款很好地配合使用,这可能是您被阻止的原因。
Google's Terms of Service中的相关条款:
请勿滥用我们的服务。例如,不要干扰我们的服务或尝试使用除接口和我们提供的说明之外的方法来访问它们。您只能在法律允许的范围内使用我们的服务,包括适用的出口和再出口管制法律法规。如果您不遵守我们的条款或政策,或者我们正在调查可疑的不当行为,我们可能会暂停或停止向您提供服务。
我还没有找到一个确定的数字,但似乎他们每天搜索查询数量的限制也相当严格 - 在他们的JSON Custom Search API文档上每天100次搜索查询{ {3}}
尽管如此,尝试其他选择以确定它们是否能更好地运作并没有什么坏处: