我正在寻找一种方法来检索给定查询的搜索结果数量(例如谷歌搜索结果页面)。 目的是使用搜索API实现规范化的谷歌距离(http://iknowate.blogspot.com/2011/10/google-similarity-distance.html);主要问题是请求数量不应太有限(google api似乎每天只允许约100次查询)。
也许有人可以给我一个如何检索这些信息的提示。答案 0 :(得分:0)
您可以使用第三方库/类来抓取结果页面,然后遍历DOM以获取您的信息或使用file_get_contents获取页面,然后使用preg_match获取结果总数。另一种选择是使用CURL抓取页面,这也可以让你隐藏多个代理后面的脚本,以防止任何类型的禁令,如果你打算多次刮擦页面。