GOOGLE:如何仅从搜索结果中获取链接?

时间:2016-06-14 00:23:30

标签: google-app-engine search google-apps-script google-api

我的问题:我需要执行多次Google搜索,产生300或有时数千条结果。我需要一种方法来获得链接结果!只是链接!我不需要标题和说明。

对于每次搜索,我无法人为地浏览每个页面并手动创建列表。这就是我需要将谷歌搜索结果列入清单的原因。

如果我在同一浏览器中获取列表就可以了。但是如果我能以文本格式获得列表,那就更好了。

1 个答案:

答案 0 :(得分:1)

免责声明:我尝试使用以下方法让新闻聚合器从新闻网站中提取信息,但从未尝试过谷歌搜索。

您可以编写一个脚本来解析谷歌搜索的HTML结果。 例如,如果我谷歌cats,这是搜索结果的链接:

第1页:https://www.google.com/?client=safari#q=cats

第2页:https://www.google.com/?client=safari#q=cats&start=10

...

第10页:https://www.google.com/?client=safari#q=cats&start=90

您可以看到模式,因此您可以编写脚本来获取所需数量的html,并解析它们以获取链接。 (链接位于<cite>标签中,其中class =&#34; _Rm&#34;)。下面是在python中读取和解析html的示例(如果有效则不进行测试)。

import urllib
from lxml import html

url = "https://www.google.com/?client=safari#q=cats"
page = html.fromstring(urllib.urlopen(url).read())

for link in page.xpath("[@class=_Rm]"):
    print "Link", link.text