我正在从我的应用中的网页解析XML。在XML内部是" 描述"项:
具有以下内容:
目标:
我必须解析" 描述"通过清理大多数HTML标记并提取LOREM_IPSUM部分来发送文本。
问题:
Q1。正在生成这样的XML"内容"不好的做法? (我不是网站开发人员)
Q2。有没有可以帮助我的框架?
(到目前为止,我尝试了Kanna和WMFeedParser)
Q3。还有其他方法不涉及我进行解析吗? (我的意思是生成XML时)
可选
我还想过找一个" content-div"。然而,在内容div内部就像是5-10个其他div,并且所有div都以标准< / div>这使得计算真正的痛苦。此外,这只是在这个"项目",其他是不同的......
到目前为止,在我看来,这个XML生成效果很差,清理它以呈现文本是一个巨大的efford。
欢迎任何建议。请随时纠正我。谢谢 :)。