我正在尝试提取此页面的html源http://www.fxstreet.com/rates-charts/currency-rates/
我希望将Chrome页面保存为.html文件时看到的内容。
我尝试在java中使用bufferedreader,然后使用jsoup。我也尝试在python中做到这一点,但是我不断收到以下消息:
"此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。"
最终目标是提取主表中的值。
答案 0 :(得分:4)
尝试使用HtmlUnit并设置setJavascriptEnabled(true)
JSoup不是无头浏览器来执行Javascript所以你必须选择其他库来获取页面然后你可以使用JSoup来解析它。
答案 1 :(得分:1)
只需使用Jsoup
即可轻松提取主表这是一个方法,它将从页面主表中获取所有内容
public void parse(){
try{
Document doc = Jsoup.connect("http://www.fxstreet.com/rates-charts/currency-rates/").get();
Element content = doc.getElementById("ddlPairsChoose");
Elements table = doc.getElementsByClass("applet-content");
System.out.print(table);
}
catch(Exception e){
System.out.print("error --> " + e);
}
}
打印出页面上的表格