Question

我想使用JSOUP从此代码段中提取“电影”文本： enter image description here

您可以注意到，除了第一个跨度之外，第二个span标记也没有ID或类。我的问题是如何检索该文本？

谢谢。

<span>                                                             
</span><span><span class="contentTitle">
Program Type:</span>
<span style="font-size: 14px;">
Movie</span>
<br />
</span><span id="MainContent_trProgramCategories"><span class="contentTitle">
 Categories:</span>&nbsp; 
<span style="font-size: 14px;">Horror, Thriller
</span>

Answer 1

试试这个

Element element = doc.select("#MainContent_trProgramCategories  .contentTitle").get(0).nextElementSibling();

Answer 2

您需要使用select(...)方法继续削减数据。例如，只需：

Elements myEles = doc.select("div[id=MainContent_UpdatePanel2] td");
String text = myEles.text();

System.out.println(text);

将为您提供您可能感兴趣的大部分内容。

Answer 3

你可以使用“Hovercraft Full Of Eels”建议。

对于未来的用例，获取元素的CSS路径或XPath的最简单方法是使用Firebug扩展。

Firebug extension

您可以单击“bug looking image”旁边的“鼠标指针图标”，然后从浏览器中选择要从中检索值的元素，然后下一行的XPath / CSS文本框将为您提供路径你可以使用。

只需复制该文字并将其粘贴在代码中

即可

doc.select("HERE PASTE THE XPATH/CSS PATH THAT YOU COPIED FROM FIREBUG").text();

如果您使用的是Chrome，

你可以

右键单击要检索文本值的元素来自
选择“检查元素”
再次右键单击调试器中突出显示的元素
选择“复制XPath”

如何从没有ID或类的标记中获取文本

3 个答案: