JSoup:从类标记中提取一个单词

时间:2011-12-03 22:27:48

标签: java string extract jsoup

过去几周我一直在使用JSoup成功地从网页上抓取数据;然而,我试图找出一种从类标签中提取单个单词而不是整个文本的方法,我走到了尽头。

这是我正在使用的Java代码:

// store all the search results in the elmAllSearchResults element
Element elmAllSearchResults = doc.getElementById("SearchResults"); 
// extract the detDesc class from elmAllSearchResults
Elements elmSize = elmAllSearchResults.getElementsByClass("desc");

提取与此类似的多行:

<font class="desc">Date 11-04; 09:21, Size 8100.00 MB, User <a class="desc" href="/member/aUser/" title="Browse">
<font class="desc">Date 12-04; 09:21, Size 62 MB, User <a class="desc" href="/member/bUser/" title="Browse">

但是现在我想要做的就是从这个文本字符串中提取大小(8100.00 MB,在这种情况下为62 MB)。 由于包装在任何标签中都不容易识别尺寸,我似乎无法找到获得它的方法。

有可能吗?

谢谢。

1 个答案:

答案 0 :(得分:1)

Jsoup只会到达单个HTML元素。如果您要解析基本上String s的文本正文,那么您需要抓取String based methods,例如substring()indexOf(),{{1}等等。

例如,如果您可以保证所需信息始终在replaceAll()", Size "之间,那么您应该在", User"上对其进行子串:

String