亲爱的,我现在正在使用webtool
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=
解析网页。
例如,我们可以解析newyorktimes主页,我们这样做:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
在我们浏览器的地址栏中,它会很好地解析我们的事情。
然而,它只是谷歌页面失败。 例如,如果我想解析Google新闻主页,例如:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
我将始终获得500内部服务器错误。
我确信这与谷歌网站有关,我想我们可能需要谷歌的一些API,有没有人知道如何为谷歌网页排序? 非常感谢。
答案 0 :(得分:2)
根据google.com robots.txt文件,明确要求您不要删除其内容。 Google不提供机器可读搜索结果的API;他们希望通过小部件和嵌入策略来控制其内容的呈现。