从谷歌搜索前10个链接搜索大量记录

时间:2018-02-08 11:04:00

标签: python web-scraping

我有63,000个字符串,我想迭代所有字符串并搜索google中的每个字符串,并将前十个链接存储在一个用“,”分隔的新列中。我已经尝试了以下代码,但它太慢了。请建议我以任何其他方式刮取链接

    try:
        from googlesearch import search
    except ImportError: 
        print("No module named 'google' found")
    query = "xyz"
    for j in search(query, tld="co.in", num=10, stop=1, pause=5):
        print(j)

1 个答案:

答案 0 :(得分:0)

试试这个:

try:
    from googlesearch import search
except ImportError: 
    print("No module named 'google' found")
query = "xyz"
for j in search(query, tld="co.in", num=10, stop=1, pause=1):
    print(j)

From this question “暂停(浮动) - 在HTTP请求之间等待的时间间隔。如果时间过长会导致搜索速度变慢,但过长的时间可能导致Google阻止您的IP。您的里程可能会有所不同!”