Question

如何提取“www.stackoverflow.com/one.jpg”和“某些文字”？

<item>
<title>mytitle</title>
<link>http://www.stackoverflow/urls</link>
<description><![CDATA[<p><img src="www.stackoverflow.com/one.jpg" alt=""></p>
<p>some text</p>
<p>]]>&lt;br clear='all'/&gt;</description>
<dc:date>2014-01-17T12:10:06+00:00</dc:date>
</item>

我的代码：

Element entry = (Element)nl.item(i);

Element title = (Element)entry.getElementsByTagName("title").item(0);
Element url_link = (Element)entry.getElementsByTagName("link").item(0);
Element date = (Element)entry.getElementsByTagName("dc:date").item(0);

Answer 1

你的元素只包含文字，因为你在一个部分中包含了一些标记（并且转义了跟随它的＆lt;和＆gt;字符。你必须提取该文本并自己操作它。

请注意，包含的文本是HTML，而不是XML;没有标签，并且不以/＆gt;结尾。因此，您不能仅通过XML解析器再次提供该文本;你需要一个HTML解析器，或者你必须使用字符串操作提取这些值。后者可能是更好的选择。

如果这不符合您的意图，您需要修复生成此文档的内容。

如何解析子节点xml

1 个答案: