如何从网页中提取源html?

时间:2012-06-01 21:49:00

标签: java python html-parsing jsoup

我正在尝试提取此页面的html源http://www.fxstreet.com/rates-charts/currency-rates/

我希望将Chrome页面保存为.html文件时看到的内容。

我尝试在java中使用bufferedreader,然后使用jsoup。我也尝试在python中做到这一点,但是我不断收到以下消息:

"此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。"

最终目标是提取主表中的值。

2 个答案:

答案 0 :(得分:4)

尝试使用HtmlUnit并设置setJavascriptEnabled(true)

另请注意:thisthis

JSoup不是无头浏览器来执行Javascript所以你必须选择其他库来获取页面然后你可以使用JSoup来解析它。

答案 1 :(得分:1)

只需使用Jsoup

即可轻松提取主表

这是一个方法,它将从页面主表中获取所有内容

public void parse(){
        try{

        Document doc = Jsoup.connect("http://www.fxstreet.com/rates-charts/currency-rates/").get();
        Element content = doc.getElementById("ddlPairsChoose");
        Elements table = doc.getElementsByClass("applet-content");      

        System.out.print(table);

        }

        catch(Exception e){

            System.out.print("error --> " + e);
        }       
    }

打印出页面上的表格