用于按年搜索新闻的API

时间:2012-01-02 12:51:05

标签: api search search-engine data-mining

我想编写Python脚本,它将从特定主题获得2011年,2010年,2009年等100个新闻/文本。

我需要搜索API ,它符合以下要求:

  1. 免费提供,作为网络服务公开。
  2. 返回给定的对象数量。
  3. 按日期过滤。确切地说,允许从给定的年份获得对象。
  4. 返回应包含与给定相关的相当长的文本(即超过100个单词) 关键字。
  5. 此文本很容易从整个回复中提取。
  6. 例如,我尝试使用Google Web Search API

    2007年第8次结果:
    https://ajax.googleapis.com/ajax/services/search/web?q=Obama+daterange%3A2454102-2454467&start=0&rsz=8&v=1.0

    完成第1点和第2点。使用不是非常受欢迎的datarange:搜索运算符添加了多年的过滤。第5点没问题,因为响应是JSON。问题在于第4点,因为它只返回短内容和标题。我有一个包含完整内容的页面的URL,但是(在另一个GET请求之后)很难从整个HTML文档中提取这些内容。

    你知道这样的API吗?或者您可能有另外一个想法如何解决这个问题?

0 个答案:

没有答案