过滤谷歌查询结果

时间:2012-02-17 20:36:28

标签: lucene google-api mediawiki wikipedia

我正在wiki xml转储上使用lucene编写维基百科文章的搜索引擎,当我给出“site:en.wikipedia”时,我想计算与特定查询的google wiki结果相比时引擎的准确性.org“以及查询。我想为多个查询执行此操作,因此我手动获取Google搜索结果网址。我有谷歌API使用机器人搜索谷歌,但问题是我想摆脱某些类型的结果,如 “/类别:” “/图标:” “/文件:” “/照片:” 和用户页面。

但我没有找到一种方便的方法,除了使用迭代方法发出查询,获得n个结果,然后使用正则表达式过滤掉,然后检索剩余的(nx)结果,所以上。当我这样做时谷歌一直阻止我。

是否有一种智能的方式可以像我想要的那样使用Java获取Google搜索结果?

先谢谢你们。

1 个答案:

答案 0 :(得分:0)