在整个网络上跟踪文章

时间:2014-05-02 06:04:23

标签: python search-engine google-custom-search

这是一个想法。

我有大量文章说来自BBC网站的新闻。这篇主文章最初由BBC新闻发布,但它可能会被网络上的许多其他网站使用。

方法1:

由于Google不提供任何API。我实施了一个程序,使用Python和机械化从Google搜索结果中获取链接。 但是,这种方法不值得推荐,因为我的IP可能会被阻止。我不想冒这个风险。

我是怎么做到的?

我使用文章标题和文章的作者组合作为布尔查询来获得与主文章类似的匹配文章。结果非常好,但我不想配合这个。

方法2:

我尝试使用Google自定义搜索查询主文章中的关键字,仅将搜索限制为限制网站而非整个网站。但结果并不好。我只需要指向其他网站使用的文章的链接。

谁能告诉我一些更好的方法?有没有可用于此目的的库我可以使用?

2 个答案:

答案 0 :(得分:0)

解决这个问题的传统方法可以说是信息检索(IR)和自然语言处理。对于初学者,请参阅Similarity between two text documents,或参阅有关此主题的任何书籍。适当的python库是sklearnNTLK

答案 1 :(得分:0)

如果您害怕在取消搜索结果时IP被禁止,您可能需要考虑另一个提供所需数据(或阈值)的搜索引擎API。

例如,Microsoft提供Bing的Web搜索API

http://www.bing.com/developers/s/APIBasics.html

使用这种方法,您不会无意中违反某些服务条款。

由于您未明确指定要搜索的内容,因此您可以在以下位置找到“文章”的API:

http://www.programmableweb.com/apis/directory/1?apicat=Search