我正在寻找一种使用Qt从网页获取特定信息的方法。到目前为止,我一直在使用QNetworkAccessManager
并设法获取包含页面中所有内容的HTTP响应。
现在什么是过滤此信息并解析xml以获取相关信息的正确方法?例如,如果您想查询维基百科以获取信息,您将如何仅保存信息而不保存页面的源代码?
答案 0 :(得分:0)
您可以解析内容,仅检索所需的信息,然后将其存储。
Qt为您提供了一些帮助您做到这一点的工具。
wiki有更多相关信息。
如果它是有效的XML,您可以使用XML Handling classes,您可以使用其他工具将损坏的XML HTML页面转换为有效的XML,如wiki中所述。
要验证和修复HTML文件,您可以使用libTidy