从网页刮到html

时间:2014-05-14 08:18:19

标签: html screen-scraping webpage

我会问你一个相当简单的问题(可能)。

我想抓一个网页,即: http://www.carmudi.com.bd/mitsubishi-lancer-ex-12877-43.html?s_category=29&s_q=se129ca11xgiintcarmx&s_dir=desc&s_no_result_page=1&disable_previous=true

我想提取右侧框中显示的信息 (包含价格,事故......以及所有这些子参数) 并将它们推送到一个简单的Html模板中。

在html中,我想显示一个包含图像的表格,然后显示一个子弹点,例如,

  • 条件

最简单的方法是什么?

非常感谢您的帮助。 欢呼声,

蒙特拉

1 个答案:

答案 0 :(得分:0)

您可以使用两种方法实现此目的:

  • 将所需数据转换为XML,然后解析数据

使用Yahoo Query Language或YQL将html解析为xml,例如:

http://query.yahooapis.com/v1/public/yql?q=select * from html where url="http://stackoverflow.com" and xpath='//div/h3/a'

需要的Xpath

//*[@id="detail"]/div[1]/article/section[1]/div[2]/div[2]/table/tbody
  • 使用DOM结构通过javscript访问每个数据

    var myDataTable = document.getElementById('detail')。div [1] .article.section [1] .div [2] .div [2] .table;

    稍后使用 Element.innerHTML 属性来访问数据。