如何提取“www.stackoverflow.com/one.jpg”和“某些文字”?
<item>
<title>mytitle</title>
<link>http://www.stackoverflow/urls</link>
<description><![CDATA[<p><img src="www.stackoverflow.com/one.jpg" alt=""></p>
<p>some text</p>
<p>]]><br clear='all'/></description>
<dc:date>2014-01-17T12:10:06+00:00</dc:date>
</item>
我的代码:
Element entry = (Element)nl.item(i);
Element title = (Element)entry.getElementsByTagName("title").item(0);
Element url_link = (Element)entry.getElementsByTagName("link").item(0);
Element date = (Element)entry.getElementsByTagName("dc:date").item(0);
答案 0 :(得分:0)
你的元素只包含文字,因为你在一个部分中包含了一些标记(并且转义了跟随它的&lt;和&gt;字符。你必须提取该文本并自己操作它。
请注意,包含的文本是HTML,而不是XML;没有标签,并且不以/&gt;结尾。因此,您不能仅通过XML解析器再次提供该文本;你需要一个HTML解析器,或者你必须使用字符串操作提取这些值。后者可能是更好的选择。
如果这不符合您的意图,您需要修复生成此文档的内容。