Question

请处理这个微不足道的问题。它在stackoverflow上有点可用。

我以String的形式拥有网站的HTML转储。我想从它的特定标签中提取文本。

换句话说，我想模仿

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

我没有使用Jsoup，因为我不希望它连接到网站（我有另一个服务，以文本的形式返回html转储）。我发现HTMLEditorKit用于将文本转换为HTMLDocument，但它似乎不是很容易使用（比如Jsoup或HTMLParser），或者我无法得到它。

任何帮助都会有用。

感谢。

Answer 1

如果你已经使用过Jsoup但它还没有用，你应该继续使用它。

Document doc = Jsoup.parse("<html>...");

应该这样做。

请参阅：The API