在没有偏见的情况下获取与查询相关的所有文章

时间:2015-10-10 14:51:59

标签: python google-api nlp

我试图建立一个与地震有关的文件集。我想下载与该活动相关的所有新闻文章。我的问题是,使用谷歌搜索(stackoverflow.com/questions/ ...)给出了偏见现在的尊重。相反,我想要所有文章,无论时间或相关性。

1 个答案:

答案 0 :(得分:1)

问题在于Google正在尝试猜测输入查询的用户的最相关搜索结果是什么,并且您对所有搜索结果感兴趣。

在这种情况下,报纸文章数据库比谷歌更好。如果您目前就读于大学,请向您的图书馆咨询此类资源。如果您有权访问此类数据库,您将能够搜索包含给定关键字的每篇文章,并且某些搜索表单甚至可以让您按发布者,按日期,按地理位置等进行过滤...

Eureka.cc就是这样一个数据库的一个例子。

某些报纸的网站会让您访问他们的文章存档。 New York Times就是其中之一。

Here is a result searching in their article database for "earthquake".

More info about newspaper article databases