应用错误收集

我正在wiki xml转储上使用lucene编写维基百科文章的搜索引擎，当我给出“site：en.wikipedia”时，我想计算与特定查询的google wiki结果相比时引擎的准确性.org“以及查询。我想为多个查询执行此操作，因此我手动获取Google搜索结果网址。我有谷歌API使用机器人搜索谷歌，但问题是我想摆脱某些类型的结果，如 “/类别：” “/图标：” “/文件：” “/照片：” 和用户页面。

但我没有找到一种方便的方法，除了使用迭代方法发出查询，获得n个结果，然后使用正则表达式过滤掉，然后检索剩余的（nx）结果，所以上。当我这样做时谷歌一直阻止我。

是否有一种智能的方式可以像我想要的那样使用Java获取Google搜索结果？

先谢谢你们。

过滤谷歌查询结果

1 个答案: