Question

我正在尝试提取此页面的html源http://www.fxstreet.com/rates-charts/currency-rates/

我希望将Chrome页面保存为.html文件时看到的内容。

我尝试在java中使用bufferedreader，然后使用jsoup。我也尝试在python中做到这一点，但是我不断收到以下消息：

＆＃34;此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。＆＃34;

最终目标是提取主表中的值。

Answer 1

尝试使用HtmlUnit并设置setJavascriptEnabled(true)

另请注意：this和this

JSoup不是无头浏览器来执行Javascript所以你必须选择其他库来获取页面然后你可以使用JSoup来解析它。

Answer 2

只需使用Jsoup

即可轻松提取主表

这是一个方法，它将从页面主表中获取所有内容

public void parse(){
        try{

        Document doc = Jsoup.connect("http://www.fxstreet.com/rates-charts/currency-rates/").get();
        Element content = doc.getElementById("ddlPairsChoose");
        Elements table = doc.getElementsByClass("applet-content");      

        System.out.print(table);

        }

        catch(Exception e){

            System.out.print("error --> " + e);
        }       
    }

打印出页面上的表格

如何从网页中提取源html？

2 个答案: