以编程方式搜索博客,论坛,新闻网站

时间:2011-11-21 17:04:48

标签: java ruby search

我想创建一个工具,生成在博客,论坛,社交媒体和新闻网站中出现某个单词或短语的频率的统计信息。即像这样的东西:

20.11.2011;足球; 800302

21.11.2011;足球;百万

此工具每天都会进行搜索,然后在特定日期保存搜索项目的提及次数。

如何在Java或Ruby中实现此功能(以编程方式进行Google / Yandex搜索?)

有Google博客搜索API(http://code.google.com/apis/blogsearch/),但现已弃用。

1 个答案:

答案 0 :(得分:4)

如果你有特定的网站,那么你可以在一天内抓一次,但如果你正在寻找你的帖子中提到的更广泛的网站,男孩,这是一个艰难的网站。我会尝试使用Google趋势 - http://www.google.com/trends?q=football或Google博客搜索http://www.google.com/search?q=football&tbm=blg

它会为您省去很多麻烦。否则,您可能需要编写自己的爬虫并索引非常大量的数据。在这种情况下,你可能想看看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org