应用错误收集

我正在从我的应用中的网页解析XML。在XML内部是＆＃34; 描述＆＃34;项：

具有以下内容：

目标：

我必须解析＆＃34; 描述＆＃34;通过清理大多数HTML标记并提取LOREM_IPSUM部分来发送文本。

问题：

Q1。正在生成这样的XML＆＃34;内容＆＃34;不好的做法？（我不是网站开发人员）

Q2。有没有可以帮助我的框架？

（到目前为止，我尝试了Kanna和WMFeedParser）

Q3。还有其他方法不涉及我进行解析吗？（我的意思是生成XML时）

可选

我还想过找一个＆＃34; content-div＆＃34;。然而，在内容div内部就像是5-10个其他div，并且所有div都以标准＆lt; / div＆gt;这使得计算真正的痛苦。此外，这只是在这个＆＃34;项目＆＃34;，其他是不同的......

到目前为止，在我看来，这个XML生成效果很差，清理它以呈现文本是一个巨大的efford。

欢迎任何建议。请随时纠正我。谢谢：）。