我正在尝试从rss Feed中获取数据,但我很难获得博客内容/帖子的图像。似乎<img>
标记位于<content:encoded><![CDATA[...]]></content:encoded>
元素内。
我不太清楚如何处理这件事。非常感谢任何帮助。
看起来像这样
<content:encoded><![CDATA[
<p><img class="class1" title="hello world" src="http://www.mysite.com/images/myPhoto.jpg" alt="" width="550" height="227" /></p>
<p><p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>
]]></content:encoded>
答案 0 :(得分:0)
RSS Feed的内容可以是任何内容。许多博客只是将HTML放在内容中,因此您必须解析HTML,每次都可能不同。
要解析HTML,您可以将其转换为XHTML,然后使用XPath查询它以查找要查找的元素。
如果您需要更多帮助,则需要发布内容的结构(如果已知)