过去几周我一直在使用JSoup成功地从网页上抓取数据;然而,我试图找出一种从类标签中提取单个单词而不是整个文本的方法,我走到了尽头。
这是我正在使用的Java代码:
// store all the search results in the elmAllSearchResults element
Element elmAllSearchResults = doc.getElementById("SearchResults");
// extract the detDesc class from elmAllSearchResults
Elements elmSize = elmAllSearchResults.getElementsByClass("desc");
提取与此类似的多行:
<font class="desc">Date 11-04; 09:21, Size 8100.00 MB, User <a class="desc" href="/member/aUser/" title="Browse">
<font class="desc">Date 12-04; 09:21, Size 62 MB, User <a class="desc" href="/member/bUser/" title="Browse">
但是现在我想要做的就是从这个文本字符串中提取大小(8100.00 MB,在这种情况下为62 MB)。 由于包装在任何标签中都不容易识别尺寸,我似乎无法找到获得它的方法。
有可能吗?
谢谢。
答案 0 :(得分:1)
Jsoup只会到达单个HTML元素。如果您要解析基本上String
s的文本正文,那么您需要抓取String
based methods,例如substring()
,indexOf()
,{{1}等等。
例如,如果您可以保证所需信息始终在replaceAll()
和", Size "
之间,那么您应该在", User"
上对其进行子串:
String