使用Google API在网址中搜索唯一词组

时间:2011-01-21 16:37:35

标签: http web-crawler

Google是否有一个API,其功能可以验证是否可以在给定的网址上找到特定的短语?

说我有一个网页网址: www.mysite / 2011/01 / check-if-phrase-exist

我想知道短语 foobar 是否存在于该文档的某个位置(它可以位于html文档的任何位置 - 而不仅仅是“可读文本”)。

函数/ api将返回True或False。

问题更新“方法”应该避免我必须将整个页面检索到我的服务器并自己搜索。这是我试图避免的网页获取(减少带宽)。

1 个答案:

答案 0 :(得分:1)

我不认为他们这样做了,但你可以自己做这个没有太多代码(这是改编自App Engine docs):

import urllib2

url = "http://www.google.com/"
try:
  result = urllib2.urlopen(url)
  my_search_function(result)
  # or perhaps my_search_function(result.content)
except urllib2.URLError, e:
handleError(e)

然后你可以定义my_search_function(text)来做你需要的事情