我正在尝试解析网页,但是当我想在页面中获取一段文字时。当我调用Jsoup.parse()和Jsoup.connect()。get()方法时,Jsoup给我一个错误的文档。
这是网页和我的代码的一部分。 doc var有一个错误的DOM。
Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href=\"http://www.twanight.org/newTWAN/index.asp\" target=\"_blank\">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría \"Belleza del Cielo Nocturno\".</p></p>");
String summary = doc1.select("p.texto p").text();
doc1变量的结果是:
<html>
<head></head>
<body>
<p class="texto"></p>
<p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href="http://www.twanight.org/newTWAN/index.asp" target="_blank">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría "Belleza del Cielo Nocturno".</p>
<p></p>
</body>
</html>
我做错了吗?
答案 0 :(得分:0)
如果您指的是&lt; html&gt;和&lt; body&gt;标签只是Jsoup将你的片段包装在适当文档的shell中。
您的首发XML:
<p class="texto">
<p>
El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href="http://www.twanight.org/newTWAN/index.asp" target="_blank">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría "Belleza del Cielo Nocturno".
</p>
</p>
包含嵌套&lt; p&gt;元素 - 那是不有效的HTML&amp; JSoup将为您解决它。详细解释了嵌套段落here - 简而言之 - 它们是自动关闭的,导致您的DOM与您的预期不同。
考虑转换外部&lt; p&gt;进入&lt; span&gt;你会没事的。