在不使用类的情况下从jsoup中的tr和table中爬取td值

时间:2015-10-14 10:12:25

标签: java html web-scraping html-table jsoup

我正在尝试使用jsoup从网站中的td抓取值。我是jsoup的新手,所以请告诉我该怎么做。此外,td或tr没有类或id来获取值,所以请帮助我。 html如下,

<table cellpadding="4" id="ctl00" style="color:#333333;width:100%;"> 
 <tbody>
  <tr align="center" style="color:White;background-color:#990000;"> 
   <th scope="col"></th>
   <th scope="col"></th>
   <th scope="col"></th>
   <th scope="col"></th>
   <th scope="col"></th>
   <th scope="col"></th> 
  </tr>
  <tr align="center" style="color:#333333;background-color:#F7F6F3;"> 
   <td>1</td>
   <td>2</td>
   <td>3</td>
   <td>4</td>
   <td>5</td>
   <td>6</td> 
  </tr>
  
  

我需要输出为 1 2 3 4 五 6 请帮我搞定。

1 个答案:

答案 0 :(得分:0)

您可以通过连接网址获取所需的页面。一旦你有文件,然后寻找elemnt'td'(如果文本在上/下根据你需要使用TD / td,则检查文件到控制台)。然后得到文本。

Document document = Jsoup.connect("http://www.google.com").get();
Element table = document.getElementById("tableId");
Elements tds = table.getElementsByTag("td");
for(Element td : tds)
{
    System.out.println(td.text());
}