我正在尝试从动态生成的网页下载一些数据,因此使用wget不起作用。该页面为http://gaceta.diputados.gob.mx/SIL/Legislaturas/Listados.html我想下载显示的每个选项列表,可以在“Legislatura”字段中选择一旦下载我可以在ruby中处理数据。
只是想知道下载这个的最佳方式是什么,如果可以选择每个选项并下载。
答案 0 :(得分:1)
您可以使用Safari或Chrome中的Web Inspector或Firefox中的Firebug扩展程序来查看数据的加载方式。该页面正在对此网站的Perl脚本执行AJAX POST请求,并以XML格式返回数据。
我会使用 cURL 来获取数据。
答案 1 :(得分:0)
您可以使用http://watir.com/或webrat来模拟您查看数据的操作,然后使用Nokogiri来解析HTML。