类型声明Eclipse

时间:2017-01-30 20:18:23

标签: java html

我想从https://wyniki.tge.pl/wyniki/rdn/indeksy/抓住桌子。所有行(IRDN等)和标题。我试图为我的案例Using JSoup To Extract HTML Table Contents重建这个问题,但我在改造它时遇到了一些困难。

在添加一些CSS之后,我想把这些表格(能源市场价格)拿到我的网站上。

我尝试使用此代码:

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebScraper {

    public static void main(String[] args) throws IOException {

        Document doc = Jsoup.connect("https://wyniki.tge.pl/wyniki/rdn/indeksy/").get();
        for (Element table : doc.select("table.t-02")) {
            for (Element row : table.select("tr")) {
                Elements tds = row.select("td");
                if (tds.size() > 6) {
                    System.out.println(tds.get(0).text() + ":" + tds.get(1).text() + ":" + tds.get(2).text() + ":" + tds.get(3).text() + ":" + tds.get(4).text() + ":" + tds.get(5).text());
                }
            }
        }

    }
}

结果:

Cz. 26/01:Pt. 27/01:So. 28/01:N. 29/01:Pn. 30/01:Wt. 31/01
PLN/MWh:182.48:176.20:147.22:137.89:169.02
MWh:67 698.70:66 088.70:72 720.40:75 460.00:58 887.10
PLN/MWh:207.61:196.18:152.71:146.69:194.75
MWh:39 442.90:40 883.10:49 538.90:48 864.30:34 401.20
PLN/MWh:184.82:176.74:145.98:135.67:171.83
MWh:67 698.70:66 088.70:72 720.40:75 460.00:58 887.10
PLN/MWh:207.27:196.66:152.22:144.41:195.66
MWh:39 442.90:40 883.10:49 538.90:48 864.30:34 401.20

但由于表属性(标题7列和正文8列),我想省略PLN/MWhMWh列(所以第一个正文列)并下载最远的列(第8个)将值放在正确的位置,如:

Cz. 26/01:Pt. 27/01:So. 28/01:N. 29/01:Pn. 30/01:Wt. 31/01
182.48:176.20:147.22:137.89:169.02:178.91
67 698.70:66 088.70:72 720.40:75 460.00:58 887.10:64 432.20
207.61:196.18:152.71:146.69:194.75:201.19
39 442.90:40 883.10:49 538.90:48 864.30:34 401.20:..
184.82:176.74:145.98:135.67:171.83:..
67 698.70:66 088.70:72 720.40:75 460.00:58 887.10:...
207.27:196.66:152.22:144.41:195.66:..
39 442.90:40 883.10:49 538.90:48 864.30:34 401.20:..

感谢您的帮助!

0 个答案:

没有答案