以字符串形式解析HTML转储的有效方法

时间:2012-04-13 06:41:39

标签: java html-parsing jsoup htmleditorkit

请处理这个微不足道的问题。它在stackoverflow上有点可用。

我以String的形式拥有网站的HTML转储。我想从它的特定标签中提取文本。

换句话说,我想模仿

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

我没有使用Jsoup,因为我不希望它连接到网站(我有另一个服务,以文本的形式返回html转储)。我发现HTMLEditorKit用于将文本转换为HTMLDocument,但它似乎不是很容易使用(比如Jsoup或HTMLParser),或者我无法得到它。

任何帮助都会有用。

感谢。

1 个答案:

答案 0 :(得分:3)

如果你已经使用过Jsoup但它还没有用,你应该继续使用它。

Document doc = Jsoup.parse("<html>...");

应该这样做。

请参阅:The API