应用错误收集

时间：2009-12-11 03:57:26

标签： information-retrieval html-content-extraction

亲爱的，我现在正在使用webtool

解析网页。

例如，我们可以解析newyorktimes主页，我们这样做：

在我们浏览器的地址栏中，它会很好地解析我们的事情。

然而，它只是谷歌页面失败。例如，如果我想解析Google新闻主页，例如：

我将始终获得500内部服务器错误。

我确信这与谷歌网站有关，我想我们可能需要谷歌的一些API，有没有人知道如何为谷歌网页排序？非常感谢。

答案 0 :(得分：2)

根据google.com robots.txt文件，明确要求您不要删除其内容。 Google不提供机器可读搜索结果的API;他们希望通过小部件和嵌入策略来控制其内容的呈现。