使用YQL进行HTML抓取

时间:2011-06-28 21:07:16

标签: web-scraping yql

我正在尝试使用YQL来抓取一些网站。当我在YQL控制台中测试各种查询时,我得到一个结果节点。例如,当我跑:

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

我得到一个空的<results />节点(permalink)。 提前谢谢!

1 个答案:

答案 0 :(得分:1)

http://www.reverbnation.com可能阻止来自Yahoo!的请求基于某些标准,如标题。我看了一下reverbnation的robots.txt,他们没有阻止雅虎!基于“Yahoo Pipes 2.0”用户代理,所以它必须是其他东西。

要重新创建问题,请针对您自己的网站进行YQL查询,然后查看完整的访问日志,以查看来自Yahoo!的完整请求和所有标头。然后使用cURL等工具发出类似请求。

您还可以尝试在端口上运行netcat并使用http://yoursite.com:PORT进行查询以查看完整请求。

相关问题discussed here