我试图从本网站上的表格中抓取信息(目前暂不使用已保存的.htm): https://web.archive.org/web/20140106024901/http://ftpcontent2.worldnow.com/wjrt/school/closings.htm
基本上我正在编写一个程序,根据此表的第一列返回学校/企业关闭的内容。我尝试使用JSoup将数据保存为元素,但我似乎无法在页面的源代码中找到表格ID,因为它出现在这个位置:Using JSoup To Extract HTML Table Contents < / p>
<P><TABLE BORDER=0 CELLPADDING=2 CELLSPACING=1><TR><TD CLASS="timestamp" ALIGN=RIGHT>UPDATED SUNDAY, JAN 5 AT 9:45 PM</TD></TR><TR><TD BGCOLOR="#EEEEEE"><FONT CLASS="orgname">AARP Foundation [<a href="/web/20140106024901/http://www.aarpworksearch.org/" target=_new>WEB</A>]</FONT>: <FONT CLASS="status">Closed Tomorrow</FONT></TD></TR><TR><TD BGCOLOR="#DDDDDD"><FONT CLASS="orgname">Akron/Fairgrove [<a href="/web/20140106024901/http://www.a-f.k12.mi.us/" target=_new>WEB</A>]</FONT>: <FONT CLASS="status">Closed Tomorrow</FONT></TD></TR><TR><TD BGCOLOR="#EEEEEE"><FONT CLASS="orgname">Alcona [<a href="/web/20140106024901/http://www.alconaschools.net/" target=_new>WEB</A>]</FONT>: <FONT CLASS="status">Closed Tomorrow</FONT></TD></TR><TR><TD BGCOLOR="#DDDDDD"><FONT CLASS="orgname">Alma [<a href="/web/20140106024901/http://www.almaschools.net/" target=_new>WEB</A>]</FONT>: <FONT CLASS="status">Closed Tomorrow</FONT></TD>...
如何在此表中保存数据?
答案 0 :(得分:0)
幸运的是,有问题的桌子是唯一有色的桌子。在这种情况下你可以利用它。以下程序打印出您想要的内容。你可以修改它以满足你的需要。
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupParser3 {
public static void main(String[] args) {
Document doc;
try {
doc = Jsoup.connect("https://web.archive.org/web/20140106024901/http://ftpcontent2.worldnow.com/wjrt/school/closings.htm").get();
for(Element row : doc.select("td[bgcolor]")){
System.out.println(row.select("font.orgname").first().text() + " - " + row.select("font.status").first().text());
}
System.out.println("Done");
}
catch (IOException e) {
e.printStackTrace();
}
}
}