我正在尝试使用YQL来抓取一些网站。当我在YQL控制台中测试各种查询时,我得到一个结果节点。例如,当我跑:
select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'
我得到一个空的<results />
节点(permalink)。
提前谢谢!
答案 0 :(得分:1)
http://www.reverbnation.com可能阻止来自Yahoo!的请求基于某些标准,如标题。我看了一下reverbnation的robots.txt,他们没有阻止雅虎!基于“Yahoo Pipes 2.0”用户代理,所以它必须是其他东西。
要重新创建问题,请针对您自己的网站进行YQL查询,然后查看完整的访问日志,以查看来自Yahoo!的完整请求和所有标头。然后使用cURL等工具发出类似请求。
您还可以尝试在端口上运行netcat并使用http://yoursite.com:PORT进行查询以查看完整请求。
相关问题discussed here。