Question

我正在尝试使用YQL来抓取一些网站。当我在YQL控制台中测试各种查询时，我得到一个结果节点。例如，当我跑：

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

我得到一个空的<results />节点（permalink）。提前谢谢！

Answer 1

http://www.reverbnation.com可能阻止来自Yahoo!的请求基于某些标准，如标题。我看了一下reverbnation的robots.txt，他们没有阻止雅虎！基于“Yahoo Pipes 2.0”用户代理，所以它必须是其他东西。

要重新创建问题，请针对您自己的网站进行YQL查询，然后查看完整的访问日志，以查看来自Yahoo!的完整请求和所有标头。然后使用cURL等工具发出类似请求。

您还可以尝试在端口上运行netcat并使用http://yoursite.com:PORT进行查询以查看完整请求。