我正在尝试为我的学校编写一个可以解析网站(“ http://vertretungsplan.de”)的应用程序。替代计划有一些子页面,我需要获取它们的href属性。
链接是Fachgymnasium->然后是Montag,Dienstag,Mittwoch,Donnerstag,Freitag。
这是我的代码
Document doc = Jsoup.connect("https://vertretungsplan.de").maxBodySize(0).header("Accept-Encoding", "gzip, deflate").userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0").timeout(600000).get();
Whitelist wl = new Whitelist().relaxed().removeTags("script");
String cleanText = Jsoup.clean(doc.html() , wl);
Document cleanedhtml = Jsoup.parse(cleanText);
Elements ftext = cleanedhtml.select("a");
for (Element daylink : ftext) {
builder.append("\n \n").append("Link : ").append(daylink);
}