如何从没有ID或类的标记中获取文本

时间:2013-08-13 01:43:42

标签: java jsoup

我想使用JSOUP从此代码段中提取“电影”文本: enter image description here

您可以注意到,除了第一个跨度之外,第二个span标记也没有ID或类。我的问题是如何检索该文本?

谢谢。

<span>                                                             
</span><span><span class="contentTitle">
Program Type:</span>
<span style="font-size: 14px;">
Movie</span>
<br />
</span><span id="MainContent_trProgramCategories"><span class="contentTitle">
 Categories:</span>&nbsp; 
<span style="font-size: 14px;">Horror, Thriller
</span>

3 个答案:

答案 0 :(得分:3)

试试这个

Element element = doc.select("#MainContent_trProgramCategories  .contentTitle").get(0).nextElementSibling();

答案 1 :(得分:2)

您需要使用select(...)方法继续削减数据。例如,只需:

Elements myEles = doc.select("div[id=MainContent_UpdatePanel2] td");
String text = myEles.text();

System.out.println(text);

将为您提供您可能感兴趣的大部分内容。

答案 2 :(得分:1)

你可以使用“Hovercraft Full Of Eels”建议。

对于未来的用例, 获取元素的CSS路径或XPath的最简单方法是使用Firebug扩展。

Firebug extension

您可以单击“bug looking image”旁边的“鼠标指针图标”,然后从浏览器中选择要从中检索值的元素,然后下一行的XPath / CSS文本框将为您提供路径你可以使用。

只需复制该文字并将其粘贴在代码中

即可
doc.select("HERE PASTE THE XPATH/CSS PATH THAT YOU COPIED FROM FIREBUG").text();

如果您使用的是Chrome,

你可以

  1. 右键单击要检索文本值的元素 来自
  2. 选择“检查元素”
  3. 再次右键单击调试器中突出显示的元素
  4. 选择“复制XPath”